# LOADING/STORING FUNCTION UNIT OF MICROPROCESSOR AND APPARATUS FOR INFORMATION PROCESSING

Publication number: JP7182167 (A)

Publication date: 1995-07-21 Inventor(s): IIIRIAMII FM

UIRIAMU EMU JIYONSON; DEIBITSUDO BII UITSUTO;

MIYURARI CHINAKONDA +
Applicant(s): ADVANCED MICRO DEVICES INC +
Classification:

G06F12/08; G06F9/312; G06F9/38; G06F12/08; G06F9/312;

G06F9/38; (IPC1-7): G06F12/08; G06F9/38
- European: G06F9/312; G06F9/38D, G06F9/38D4; G06F9/38E
Application number: JP19940260699 19941025

Priority number(s): US19930146376 19931029

Abstract of JP 7182167 (A)

- international:

PURPOSE: To perform plural load operations in parallel and to perform the stars transfer operation by a super-scalar microprocessor provided with a load store function until and a corresponding data cache. CONSTITUTION: A load/store function until 13th includes plural entire RSO to RSO 3 of a hobing station 124, which are accessed in parallel and a report of the provided stars of the provided stars of the purpose of the provided stars of the provided stars as to purpose such entire are constituted store as provide such firstler filter out buffer that the output form a lower-order entry of the buffer is given as the input to a highpor-order entry.



Also published as:

图 EP0651323 (A1) 图 EP0651323 (B1)

因 US6298423 (B1) 因 US5878245 (A) 因DE69433339 (T2)

Data supplied from the espacenet database --- Worldwide

## (19)日本国特許庁 (JP) (12) 公開特許公報 (A)

# (11)特許出願公開番号 特開平7-182167

(43)公開日 平成7年(1995)7月21日

最終質に続く

| (51) Int.Cl. <sup>6</sup> | 識別配号    | 庁内整理番号  | FΙ | 技術表示箇所 |
|---------------------------|---------|---------|----|--------|
| G06F 9/3                  | 8 370 A |         |    |        |
| 19/0                      |         | 7608-5T |    |        |

#### 審査請求 未請求 請求項の数18 OL (全 26 頁)

| (21)出願番号    | <b>特膜平6-260699</b> | (71)出願人 | 591016172               |
|-------------|--------------------|---------|-------------------------|
|             |                    |         | アドバンスト・マイクロ・ディバイシズ・     |
| (22)出願日     | 平成6年(1994)10月25日   |         | インコーポレイテッド              |
|             |                    |         | ADVANCED MICRO DEVI     |
| (31)優先権主張番号 | 146376             |         | CES INCORPORATED        |
| (32) 優先日    | 1993年10月29日        |         | アメリカ合衆国、94088~3453 カリフォ |
| (33)優先権主張国  | 米国 (US)            |         | ルニア州、サニィベイル、ピィ・オゥ・ボ     |
| (33) 優先植土張国 | 木国 (US)            |         |                         |
|             |                    |         | ックス・3453、ワン・エイ・エム・ディ・   |
|             |                    |         | プレイス(番地なし)              |
|             |                    | (74)代理人 | 弁理士 深見 久郎 (外3名)         |
|             |                    |         |                         |
|             |                    |         |                         |

### (54) 【発明の名称】 マイクロプロセッサのロード/ストア機能ユニットおよび情報処理用装置

#### (57)【要約】

【目的】 ロード/ストア機能ユニットおよび対応する データキャッシュを有するスーパースカラマイクロプロ セッサによって、複数のロード動作を並列に行ない、か つストア転送動作を行なう。

【構成】 ロード/ストア機能ユニット(134)は並 列にアクセスされデータキャッシュ (150) に並列に 結合される保留ステーション (124) の複数個のエン トリ (RS0-RS3)と、複数個のバッファエントリ (SB0-SB3)を有するストアバッファ回路(18) 0)とを含む。ストアバッファエントリはバッファの下 位エントリからの出力が上位エントリへの入力として与 えられる先入れ先出しバッファを与えるように構成され 3.



#### 【特許請求の範囲】

[請求項1] 複数個のロード動作を差例に実行するためのロード機能ユニットであって、ロード動作を一時的
に保持するための政留ステーション国路を含むロード機 能ユニットを備え、前記保留ステーションエントリ 第2ステーションエントリと第2の保留ステーションエントリ と第2ステーションエントリと第2の保留ステーションエントリ は前記第1の保留ステーションエントリに保留ステーション 可能に第1の保留ステーションエントリに保留ステーションエントリ 取り、第1のロード信号を前記第1の保留ステーション エントリと前記第2の保留ステーションエントリと解とステーション エントリと前記第2の保留ステーションと下りより え、かつ第2のロード信号を前記第1の保留ステーションと と前に第2の保留ステーションとに与える入力信号マ ルチアレク中間路と

前起第1の人力ロード信号と前記第2の入力ロード信号とのうちのどちをを前記第1の保留ステーションエントリル吸出すかを削削するためのロード側にエットはさらにストアアレイとデータキャッシュントローラとを含むデータキャッシュとった。前記ストアアレイは第1のデータキャッシュボートと第2のデータキャッシュボートとの各々を力して前記ロー保護・エットに少ちなりでの計算3の保留ステーションエントリと前記第2の保留ステーションエントリとに結合され、前記ストアアレイは前記第1のロード信号とに応答してデータを前記ロード機能エエットに対しているロード信号とに応答してデータを前記ロード機能エエットに並列に与え、

前記データキャッシュコントローラは前記ロード制御回 路に結合される、ロード機能ユニット。

【請求項2】 前記保留ステーション回路はデータキャッシュデータを並列に受取り、かつ前記データキャッシュデータを第1の結果パスと第2の結果パスとに並列に与える保留ステーションドライバ回路をさらに含む、請求項1に記載のロード機能ユニット。

【請求項3】 前記ロード側側回路はタイプコード一致 信号に応答して前記第1の保留ステーションエントリと 前記第2保留ステーションエントリのどちらによってど のロード信号が取出されるかを制御し、

前記タイプコードー数信号は、タイプコードバスからの タイプコードが所定のロード機能ユニットタイプコード に一致する場合に前記ロード制御回路によって発生す る、請求項1に記載のロード機能ユニット。

【請求項4】 前記保留ステーション回版化第3の保留 ステーションエントリをさらた含み、前記第3の保留ス テーションエントリは前記第2の保留ステーションエントリに結合されて前記第2の保留ステーションエントリ出力を与え、前記第 3の保留ステーションエントリ出力を与え、前記第 3の保留ステーションエントリは前記第1の保留ステーションエントリに結合されて前記第1の保留ステーションエントリは前記第1の保留ステーションエントリに結合されて前記第1の保留ステーションエントリに結合されて前記第1の保留ステーションエントリに結合されて前記第1の保留ステーションエントリに結合されて前記第1の保留ステーションエントリに結合されて ンエントリに前記第3の保留ステーションエントリ出力 を与え、前記第1の保留ステーションエントリと前記第 2の保留ステーションエントリのうちの一方は前記ロー ド側柳回路の柳博下で前記第3の保留ステーションエン トリ出力を収出す、請求項1に記載のロード機能ユニット。

【請求項5】 前記保留ステーション回路は第4の条留 ステーションエントリをさらに含み、前記第4の保留ス テーションエントリは前距第3の保留ステーションエントリ に第4の保留ステーションエントリ出力を与え、前記第 はの保留ステーションエントリは前距第2の保留ステーションエントリに前路第2の保留ステーションエントリに前路第2の保留ステーションエントリに結合されて前記第2の保留ステーションエントリに対応第4の保留ステーションエントリ出力を与え、

前記第3の保留ステーションエントリと前記第2の保留 ステーションエントリのうちのプルは前記ロードの開留 路の朝師下で前記第4の保留ステーションエントリ出力 を取出す、請求項4に記述のロード機能ニュット、 信款実有5 一部保留ステーション四部は、前記第1 の保留ステーションエントリと前記第2の保留ステーションエントリとにそれぞれ結合される第1の加算器回路とをさらに含み、

前記第1の加算器回路および前記第2の加算器回路は前 記ロード信号を変現って前記ロード信号に進づいてキャ ッシュアドレス信号を与え、前記キャッシュアドレス信号を持った。 号は前記データキャッシュストアアレイ内の第1の位置 および第2の位置の各々にアクセスする、前求項1に記 続のロード掲載とユット。

【請求項7】 前記第1の加算器回路および前記第2の 加算器回路の各々は複数個のアドレス成分信号を受取 り、論理アドレス信号を与えるための論理アドレス加算 器と、

前記論理アドレス信号とセグメントベース信号とを受取 り、線形アドレスを与えるための線形アドレス加算器と を含む、請求項6に記載のロード機能ユニット。

【請求項8】 前記アドレス成分信号はAオペランド加 算器信号と、Bオペランド加算器信号と、変位加算器信 号とを含む、請求項アに記載のロード機能ユニット。 【請求項9】 前記第 1の加重器同路は

Aオペランド信号とゼロ信号とを受取り、前記ロードコ ントローラからのアドレスモード削削時に応答してこ れらの値のうちの1つを前記入メポペランド加算部信号と して与えるためのオペランドマルチブレクサ「国路と、 Bオペランド信号と読塾がアドレス1 信号とを受取り、 前記ロードコントローラからの71とスモード削削情報 に応答してこれらの信号のうちの1つを前記Bオペラン ド加算部信号として与えるためのBペクンドマルチブ リンサロ路と、変位信号と信号とを変取り、

前記ロードコントローラからのアドレスモード制御情報

に応答してこれらの値のうちの1つを前記変位加算器信号として与えるための変位マルチプレクサ回路とをさらに含む、請求項8に記載のロード機能ユニット。

【請求項10】 前記第2の加算器回路は、 Aオペランド信号とゼロ信号とを受取り、前記ロードコ

ムオペランド信号とゼロ信号とを受取り、前記ロードコントローラからのアドレスモード制制管機に応ざした。 して与えるためのムオペランドマルチアレクテ門路と、 Bオペランド信号と誘発列アドレス1信号とを受別、前記ロードコントローラからのアドレスモード御弊情報 に応答してこれらの信号のうちの1つを前記Bオペランドアルチア レクサ間路とをさらに含み。 が成本部信号として与えるためのBオペランドマルチア レクサ間路とをさらに含み。

変位信号は前記論理アドレス加算器に直接与えられる、 請求項8に記載のロード機能ユニット。

【請求項11】 ストア転送動作を実行するためのストア機能ユニットであって、 ストア動作を保持するための第1および第2のストアバ

ストア動作を保持するための第1 および第2のストアが、
マッテエントリ四般を含み、前述第2のストアバッファ
エントリは前距第1のストアバッファエントリに結合さ
れて前距第1のストアバッファエントリに結合さ
れて前距第2のストアバッファエントリに対して
が、マッテエントリ出前起第2のストアバッファエントリに対して
まな、前に第1のストアバッファエントリに対して
アバッファエントリ出力を与え、さらに前記第1のストアバッファエントリ出力を与え、さらに前記第1のストアバッファエントリ囲かを
するために、前距第2のストアバッファエントリ四路を
前記第1のストアバッファエントリ出力を取出すかどう
かを飼修するためのストアゴントリエーラを含み、前記第1のストアバッファエントリリーラを検でして
いたのでは、アバッファエントリ回路とに結合
される、ユニット。

【請求項12】 第3のストアバッファエントリ回路を さらに会み、前記第3のストアバッファエントリ同路は 前記第2のストアバッファエントリ回路に結合されて前 記第2のストアバッファエントリに第3のストアバッフ ァエントリ出力を与え、前記第1のストアバッファエン トリ同路は前記第3のストアバッファエントリ回路に結 合されて前記第3のストアバッファエントリ回路に第1 のストアバッファエントリ出力を与え、かつ前記第2の ストアバッファエントリ回路は前記第3のストアバッフ ァエントリ回路に結合されて前記第3のストアバッファ エントリ同路に第2のストアバッファエントリ出力を与 え、さらに前記ストアコントローラは前記第3のストア バッファエントリ回路に結合され、前記第1および第2 のストアバッファエントリ出力を用いてストア転送動作 を実行するために、前記第3のストアバッファエントリ 回路が前記第1のストアバッファエントリ出力を取出す かまたは前記第2のストアバッファエントリ出力を取出 すかを制御する、請求項11に記載のストア機能ユニッ Ъ.

【請求項13】 第4のストアバッファエントリ回路を さらに含み、前記第4のストアバッファエントリ回路は 前記第3のストアバッファエントリ回路に結合されて前 記第3のストアバッファエントリに第4のストアバッフ ァエントリ出力を与え、前記第1のストアバッファエン トリ同路は前記第4のストアバッファエントリ回路に結 合されて前記第4のストアバッファエントリ同路に第1 のストアバッファエントリ出力を与え、前記第2のスト アバッファエントリ回路は前記第4のストアバッファエ ントリ回路に結合されて前記第4のストアバッファエン トリ回路に第2のストアバッファエントリ出力を与え、 かつ前記第3のストアバッファエントリ回路は前記第4 のストアバッファエントリ回路に結合されて前記第4の ストアバッファエントリ回路に第3のストアバッファエ ントリ出力を与え、さらに前記ストアコントローラは前 記第4のストアバッファエントリ回路に結合され、前記 第1または前記第2のストアバッファエントリ出力を用 いてストア転送動作を実行するために、前記第4のスト アバッファエントリ回路が前記第1のストアバッファエ ントリ出力を取出すかまたは前記第2のストアバッファ エントリ出力を取出すかを制御する、請求項12に記載 のストア機能ユニット。

【請求項14】 前記第1のストアバッファエントリ回 路および前記第2のストアバッファエントリ回路の各々 はストアバッファエントリを保持するためのストアバッ ファレジスタ回路と、

どの信号が前記ストアバッファレジスタ回路に与えられ て保持されるのかを制物するためのストアバッファマル チアレクサ回路とを含む、請求項11に記載のストア機 能ユニット。

【請求項15】 前記ストアバッファレジスタ回路は前 記ストアバッファエントリのストアバッファデータエン トリを保持するためのストアバッファエントリデータレ ジスタと、

前記ストアバッファエントリのストアバッファアドレス エントリを保持するためのストアバッファエントリアド レスレジスタと、

前記ストアバッファエントリのストアバッファタグエン トリを保持するためのストアバッファエントリタグ部分 とを含む、請求項14に記載のストア機能ユニット。 【請求項16】 前記ストアバッファマルチプレクサ回

T 日本の 10 日本の 17・17・17・17・17・17・17・17・18 日本 18 日本 18

複数個のアドレス信号を受取り、前記複数個のアドレス 信号のうちの1つを前記ストアコントローラの制御下で 前記ストアバッファドレスエントリとして与えるため のアドレスバイトマルチプレクサ回路と、 複数個のタグ信号を受取り、前記複数個のタグ信号のう ちの少なくとも1つを前記ストアコントローラの制御下 で前記ストアパッファクダエントリとして与えるための タグマルチプレクサ回路とを含む、請求項15に記載の ストア機能エニット。

【請求項17】 キャッシュに対してロード動作および ストア動作を並列に実行する、マイクロプロセッサのロード/ストア機能ユニットであって.

ロード動作およびストア動作を一時的に保持するための 保留ステーション回路を含み、前記保留ステーション回 路は第1の保留ステーションエントリと第2の保留ステ ーションエントリとを含み、前記第1の保留ステーショ ンエントリと前記第2の保留ステーションエントリとは データキャッシュの第1のボートと第2のボートとに結 合され、さらにストア動作を一時的に保持するためのス トアバッファ回路を含み、前記ストアバッファ回路はス トア動作を一時的に保持するための第1のストアバッフ ァエントリと第2のストアバッファエントリとを含み。 前記ストアバッファエントリのうちの少なくとも1つは 前記保留ステーションエントリのうちの少なくとも1つ に結合され、さらに前記保留ステーションエントリおよ び前記ストアバッファエントリを制御するための制御回 路を含み、前記制御回路は前記保留ステーション回路と 前記ストアバッファ回路と前記データキャッシュとに結 合される、ユニット。

【請求項18】 情報処理用装置であって、

情報を保持するための外部メモリと、 プロセッサバスを介して主メモリに結合されるプロセッ

サとを含み、 前記プロセッサは前記外部メモリに結合されて前記情報 を一時的に保持するためのキャッシュと

ロード動作およびストア動作を実行するためのロード/ ストア機能ユニットとを含み、前記ロード/ストア機能 ユニットはロード動作およびストア動作を一時的に保持 するため保留ステーション回路を含み、前記保留ステー ション回路は、前記データキャッシュの第1のボートと 第2のポートとに結合された第1の保留ステーションエ ントリと第2の保留ステーションエントリとを含み、さ らに第1のストアバッファエントリと第2のストアバッ ファエントリとを含んでストア動作を一時的に保持する ためのストアバッファ回路を含み、前記ストアバッファ エントリのうちの少なくとも1つは前記保留ステーショ ンエントリのうちの少なくとも1つに結合され、さらに 前記保留ステーション回路と前記ストアバッファ回路と 前記データキャッシュとに結合されて、前記保留ステー ションエントリおよび前記ストアバッファエントリを制 御するための制御回路を含む、情報処理用装置。

【発明の詳細な説明】

[0001]

【発明の背景】本発明はマイクロプロセッサに関し、よ

り特定的には、高性能なデータキャッシュおよびロード /ストア機能ユニットを有するマイクロプロセッサに関 する

[0002]マイクロプロセッサは、1つまたは非常に
少数の半端体チッア上で実現されるプロセッサである。
非解体チップ技術によりマイクロプロセッサ内の回路管
旋および選抜が増大してきているが、マイクロプロセッサ サンド衛系・セリンの相互接触にカッケージング技術 サンド衛系・セリンの相互接触にカかる費用は非常に高い、マイ クロプロセッサの性能を向上しようせるどのような技 術も、パッケージング技術、およびプロセッサとその外 部末・モリンの神の外能という制かりで、増大する自総 密度および速度を利用しなければならない。回路密度が 増大しているために、増々、設計が複雑になっている が、マイクロプロセッサの参照とは、一手がマイクロプロ セッサの使用方法を理解できるように単純かつ明快なま までかくておいけない。

[0003] 既郊のマイクロプロセッサはスカラ計算に向けられているものが大半であるが、マイクロプロセッサの連化の点から言えば、スーパースカラマイクロプロセッサが強弾的には次のステップである。スーパースカラという用語は、スカラ命令を同時に実行することによって能能を向上させるコンピューク実現のことである。スカラ命令とは、奥型的には汎用マイクロプロセッサで、見られるタイプの命令である。中ロ・導体処理技術を用いれば、かつては大規模を科学的プロセッサにしか適用できなかった高性能な技術を1つのプロセッサ・プロ・現れてもどかがら、表情ができる。しかしながら、大規模プロセッサに用いられる技術の多くは、スカラ計算には適さないか。またはマイクロプロセッサに用いるには高値すぎる。

【0004】マイクロプロセッサはアプリケーションプ ログラムを実行する。アプリケーションプログラムは命 令群からなる。アプリケーションプログラムの実行にお いては、プロセッサはあるシーケンスで命令を取出しか つ実行する。たった1つの命令を実行するのにも、命令 を取出し、デコードし、そのオペランドをアセンブル し、命令によって特定される動作を実行し、かつ命令の 結果を記憶に書込むといういくつかのステップがある。 命令の実行は周期的クロック信号によって制御される。 クロック信号の周期はプロセッササイクル時間である。 【0005】プロセッサがプログラムを完了するのにか かる時間は次の3つの要因、すなわちプログラムを実行 するために必要な命令の数、命令を実行するために必要 なプロセッササイクルの平均数、およびプロセッササイ クル時間によって決定される。プロセッサの性能は所要 時間を減じることによって向上するが、これには上の要 因のうちの1つ以上のものが減らされる必要がある。 【0006】マイクロプロセッサの性能を向上させる一

方法としては、パイプライン処理と呼ばれる技術を用い て異なる命令のステップを重ねることである。命令をパ イプライン処理するためには、パイプライン段と呼ばれ る独立したユニットによって様々なステップの命令の実 行が行なわれる。パイプライン段はクロック決めされた レジスタによって分離される。異なる命令のステップ が、異なるパイプライン段中で独立して実行される。パ イプライン処理は、プロセッサが1度に1つ以上の命令 を取扱うことを可能にすることによって、命令の実行に 必要な合計時間は低減できないが、命令の実行に必要な 平均サイクル数を低減する。このことはプロセッサのサ イクル時間を目に見えるほどは増大させることなく行な われる。典型的には、パイプライン処理は1命令当たり の平均サイクル数を3分の1ほどにも低減する。しかし たがら、分岐命令を実行する場合は、パイプラインは分 岐動作結果がわかり正しい命令が実行用に取出されるま で停止することがあるかもしれない。これは分岐遅延べ ナルティとして知られている。また、パイプライン段の 数を増大すると、典型的には1命令当たりの平均サイク ル物に関する分岐遅延ペナルティを増大させる。

[0007] プロセッサの性能を向上させる他の方法としては、マイクロプロセッサが命令オペランドをアセン プルし、かつ命令の結果を確立む速度を増大することで ある。これらの機能はそれぞれロードおよびストアと呼 ばれる。これら両すの機能はマイクロプロセッサのデー タキャッシュの限用に依存する。

【0008】初期のマイクロプロセッサの発展の間に は、命令の実行時間と比べて命令を取出すのにかかる時 間が長かった。このことが複合命令セットコンピュータ (CISC)プロセッサ開発の動機となった。CISC プロセッサは、利用可能な技術を用いるとすれば、1命 令当たりのサイクル数は命令を取出すのにかかるサイク ルの数によってほぼ決定されるという知識に基づいてい た。性能の向上のために、CISCアーキテクチャの2 つの主要な目標は、所与のタスクに必要な命令の数を低 減することと、これらの命令を密度高くエンコードする こととであった。パイプライン処理を用いると、デコー ドおよび実行サイクルは相対的に長い命令フェッチと通 常は重なるため、命令をデコードしかつ実行するのにか かる平均サイクル数を増やすことによって上記のような 目標を達成してもよかった。このような前提のもとに、 CISCプロセッサはプロセッサ内部のデコードおよび 実行時間を犠牲にして密度高くエンコードされた命令を 発展させた。複数サイクルの命令によって命令全体の数 が減り、命令取出し時間が減るため全体の実行時間が短 くなった。

【0009】1970年代後半から1980年代初めに かけて、メモ技術およびパッケージング技術が急速に変 化した。メモリ密度および速度は、キャッシュと呼ばれ る高速ローカルメモリをプロセッサの近くに実現し得る ほどまで増大した。キャッシュは、プロセッサが一時的 に命告およびデータを記憶するために用いる。キャッシ 本を用いて命かより迅速に限出される場合。以前は命 令取出し時間内に隠されていたデコードおよび実行時間 によって性能が限定される。命令の数は1つの命令を実 行するのにかかみ平均サイクル数ほどには性能に影響を みぼさかい。

【0010】命令の取出しが命令の実行よりそれほど時 間がかからないようになるまでメモリおよびパッケージ ング技術が向上したことは、縮小命令セットコンピュー タ(RISC)プロセッサの開発の動機となった。性能 の向上のために、RISCアーキテクチャの主たる目標 は、命令の総数はいくぶん増やしても、命令の実行にか かるサイクルの数を減らすことである。1命令当たりの サイクル数と命令の数との間のトレードオフは1対1で はない。CISCプロセッサと比較して、RISCプロ セッサは典型的には命令の数を30%から50%増やす 一方で、3分の1-5分の1にまで1命令当たりのサイ クル数を減らす。RISCプロセッサは、コンパイラが 全体の命令カウントを減らすことを助けるため、または 1命令当たりのサイクル数を減らすことを助けるため に、多数の汎用レジスタならびに命令およびデータキャ ッシュなどの補助的特徴に依存する。

[0012] スーパースカラプロセッサは概念的には単純であるが、性能を向上させるためにはプロセッサのパイプラインの機能大する以上のことが必要である。 パイプラインの概念化する以上のことが必要である。 パイプラインの概念化する以上のことが必要である命令シーケンスもこの能力を利用できるとは限々ない、かかなる命令シーケンスもこの能力を利用できるとは限々ない、命令は互いに強としておらず相関の任むいくつかの命令が同じパイプライン段を占有するとを程管する。そらに、命令をデコードしかつ実行するプロセッサの機構は、同時に実行可能と命令を発見する能力において大きく異なることがある。

[0013] スーパースカラ技術は、主として命令セットおよび他のアーキテクケャの特徴から独立したプロセッサの組織に関する。したがって、スーパースカラ技術の魅力の1つは、既存のアーキテクチャとコードレベルで互換性があるプロセッサを開発する可能性がある。アーケースカラ技術の多くはRISCアーキテなる。スーパースカラ技術の多くはRISCアーキテ

クチャまたはCISCアーキテクチャのどちらにも同じ ように十分に適用可能である。しかしながら、数多くの RISCアーキテクチャには規則性があるため、スーパ ースカラ技術はまずRISCプロセッサ設計に適用され ている。

【0014】単一サイクルのデコードに適合しているというRISCプロセッかの含やセットの属性はまた。アレクロッサイクル中に接換のRISC命令をデスードする場合にも適合するであろう。これらの属性には、一般的なラオペランドのロード/ストアアーキテクチャ、カナか数金かみ戻しかが表しかが表しかが表しかが表しかがました。サインスを選択される。スーパースカイラに SCプロセッサを設計する策定をする命が含まれる。スーパースカイラRISCプロセッサを設計する技術はニュージャージー州エングルケッド・クリフス (Englewood Cliffs, Nes Jerse)のアレンティス・ホール社 (Prentice-Hall, Inc.) (サイモン・アンド・シュースター (Simon & Schuster)の一部門のウィリアム・マイケル・ジョンソン (Will am Michael Johnson )による1991年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の15911年の159

rocessor Design )」に記載されている。
(10015] RISCアーキテクチャとは対照的は、CISCアーキテクチャはは要の異なる命令フォーマットを用いる。極広く使用されているCISCマイクロプロセッサで、サキテクチャでは、1486fmマイクロプロセッサに最初に導入されたが、1486fmマイクロプロセッサなどがベンティアム(Pentium)マイクロプロセッサの最が必要が大アム(Pentium)マイクロフロマロマのでは、1486fmマイクロプロセッサのはがベンティアム(Pentium)マイクロプロセッサのはがなどのエディアム(Santa Clara、Glifomia)のインテル(Intel)とから入手可能である。X86アーキテクチャは、診側アドレス、線形アドレス、おど物理アドレスの3つの単なをサイのアドレス、おど物理アドレスの3つの単なをサイフのドレスを修備する。

ースカラマイクロプロセッサ設計 (Superscalar Microp

[0016] 論理アドレスはセグメントベースアドレス からのオフセットを示す、実効アドレスと呼ばれるこの オフセットは、マイクロプロセッサが用いているアドレスモードは、変位、ベース、インデックスもよびスケールの イののアドレスエレメントの異なる組合かせを身える。セグメントベースアドレスはセレクタを介してアクセスされる。より特定的には、セグメントレジスタ中に配憶されるセレクタはグローバレディスクリプタテーブル (GDT) 中の位置を示すインデックスである。GDT 位置は、セグメントベースアドレスに対応する鏡形アドレスを配管する

【0017】論理アドレスと線形アドレス間の変換は、マイクロプロセッサが実モードであるのかまたは保護モードであるのかに依存する。マイクロプロセッサが実モ

ードの場合、セグメンテーションユニットはセレクタを 4ビットたヘンフトし、その結果をオフセットに加えて 縁形アドレスを形成する、マイクロプロセッサが保護モ ードの場合、セグメントユニットはセレクタが示した線 形ペースアドレスをオフセットに加えて線形アドレスを 与える。

【0018】 物理アドレスはマイクロプロセッサのアドレスピン上に現れれるアドレスであり、外部メモリを期間でドレスにおけいたれる。 物理アドレスは全がしも線形アドレスは対応しない。 ページング がイネーブルされなければ、32ビット線形アドレスは 地理アドレスに対抗する。 もん・ジングがイネージングがイネージンがストル・ジングバイスに 実際アドレスは 地理アドレスに変換されなく てはななない。この変換はページングユニットが実行する。

【0019】ページングユニットは線形アドレスを物理 アドレスに変換するために2レベルの表を用いる。第1 レベルの表はページディレクトリであり、第2レベルの 表はページテーブルである。ページディレクトリは複数 個のページディレクトリエントリを含み、その各々のエ ントリはページテーブルのアドレスおよびページテーブ ルについての情報を含む。線形アドレスの上位10ビッ ト(A22-A31)はページディレクトリエントリを 選択するためのインデックスとして用いられる。 ページ テーブルは複数個のページテーブルエントリを含み、各 ページテーブルエントリはページフレームの実ページ番 号と呼ばれるページフレームの開始アドレスと、ページ についての統計的情報とを含む。線形アドレスのアドレ スピットA12-A21はページテーブルエントリの1 つを選択するためのインデックスとして用いられる。ペ ージフレームの開始アドレスは線形アドレスの下位12 ビットと連結されて物理アドレスを構成する。

【0020】名メモリ動作性に2レベルの表とアクセス することはマイクロブロセッサの性能にかなり影響を及 ほすため、米86アーキテクチャは最も最近アクセスさ れたページテーブルエントリのキャッシェを設け、この キャッシュはトランスレーションルックアサイドンファ (TLB)と呼ばれる。マイクロブロセッサはエント リが下しおにない場合だけページングユニットを使用する。

[0021]キャッシュを含むx86アーキテクチャに 従う最初のプロセッサは486アロセッサであり、これ は8Kバイト統合キャッシュを1つ含んでいた、ペンティアムプロセッサは分離した8Kバイト命令およびデー タキャッシュを含む、486プロセッサキャッシュお地里アドルスを がベラティアムプロセッサキッシュは物理アドルスを 介してアクセスされるが、これらのプロセッサの機能ユニットは海理アドレスを開いて動作する。したがって、 職能ユニットがキャッシュペアクセスする必要がある場 命、軸理アドレスは線形アドレスへ、その後物理アドレ スへ変換されなくてはならない。

[0022]

【発明の模要】パラレルにアクセスされる複数個の保留 ステーションエントリを含むロード部を有するマイクロ プロセッサを提供することによって、複数個のロード動 作をパラレルに実行することが可能であることがわかっ た。

【0023】バッファの下位エントリからの出力がバッファの上位エントリへの入力として非えられる。先入れ 大出しバッファとして構成される複数曲のストアバッファエントリを含むストア部を有するマイクロプロセッサ を提供することによって、ストア転送動作を実行することが可能であるということもわかった。 【0024】

【実施例】以下に、本発明を実行するための、考えられる最良のモードを詳細に説明する。以下の説明は本発明を例示するものであると意図し、限定的であるとは考えるべきではない。

【0025】図1を参照して、本発明は、X86命令セ ットを実行するスーパースカラX86マイクロプロセッ サ100の文脈において最良に理解することができる。 マイクロプロセッサ100は486XLバスまたは他の 従来のマイクロプロセッサバスを介して、物理的にアド レス指定される外部メモリ101に結合される。マイク ロプロセッサ100はバイトキュー106に結合される 命令キャッシュ104を含み バイトキュー106は命 令デコーダ108に結合される。命令デコーダ108は RISCコア110に結合される。RISCコア110 は、シフトユニット130 (SHF)、算術論理ユニッ ト131、132 (ALU0およびALU1)、特別レ ジスタブロック133 (SRB)、ロード/ストアユニ ット134 (LSSEC)、分岐セクション135 (B RNSEC)、および浮動小数点ユニット136 (FP U) などの多様な機能ユニットとともに、レジスタファ イル112およびリオーダバッファ114を含む。 【0026】RISCコア110は、命令デコーダ10 8とロード/ストアユニット134との間に結合される 変位および命令、ロードストア (INLS) バス119 とともに、機能ユニットに結合されるAおよびBオペラ ンドバス116と、タイプおよびディスパッチ (TA D) バス118と、結果バス140とを含む。 Aおよび Bオペランドバス116はまた、レジスタファイル11 2とリオーダバッファ114とに結合される。TADバ ス118はまた命令デコーダ108に結合される。結果 バス140はまたリオーダバッファ114に結合され る。 さらに、 分岐セクション 135は、 リオーダバッフ ァ114と、命令デコーダ108と、命令キャッシュ1 04とにXターゲットバス103を介して結合される。 AおよびBオペランドバス116は、4つのパラレル1 2ビット幅Aタグバスと、4つのパラレル12ビット幅 Bタグバスと、12ビット幅Aタグ市がバスと、12ビット幅Bタグ市がバスと、4つの8ビット幅所先タグバスと、4つの8ビット幅で元タグバスと、4つのの8ビット順で、12トルインドバスとを含む。大師Bオペランドバスと、4つのパラルル41ビット幅Bオペランドバスとを含む。大師Bオペランドバスとを含む。大師Bオペランドバスとを含む。大師Bオペランドバスとで、1つの3ビット幅タイプコードバスと、1つの4ビット幅デスパッチバスとを含む。大阪始まば「NLSバス」19は、2つの3ビット幅変位バスと、2つの8ビット幅INLSバストを含む。大阪始まば「NLSバス」とを含む。大阪がよび「NLSバス」とを含む。大阪がよび「NLSバス」となり、12ビット幅変位バスと、2つの8ビット幅INLSバストを含む。

【0027】命令キャッシュ104に加えて、マイクロプロセッサ100はまたデータキャッシュ150 (DC ACHE) と物理グ回路162とを含む、データキャッシュ150 はRISCコアのロード/ストア機能ユニット134と、プロセッサ内アドレスおよびデータ(I AD) バス102とに結合される。命令キャッシュ104はまたIADバスを介して命令キャッシュ106とデータキャッシュ104およびデータキャッシュ150は両方と相互動作する。命令キャッシュ104およびデータキャッシュ150は両方と4世が上ス指定可能でキャッシュ150は物理的に離れているが、キャッシュ150は物理のに関わているが、キャッシュ150は物理のに関わているが、キャッシュ150は物理のに関わているが、キャッシュは両方とも同じアーキテクチャを用いて構成される。

【0028】マイクロプロセッサ100はまた、メモリ管理ユニット(MMU)164とバスインタフェースユット160(BIU)とを含む、TLB164は、IADバスと物理契約回路162とに結合される。バスインタフェースユニット160は、486XLバス等の分部マイクロプロセッサバスと共に、物理契約回路162とデータキャッシュ150とIADバス102とに結合される。

【0029】マイクロプロセッサ100は命令のシーケンスを含むコンピュータプログラムを実行する。 泉型りには、コンピュータプログラムは外下ディスク、フロッピィディスクまたはコンピュータシステム中に位置する他の不得発性型機能体に記憶される。プログラムが実行のよる場合、プログラムは記憶媒体からよび見随したプレロードされる。プログラムの命令および関連したデータが一旦主メモリ101に入ると、個々の命令の実行準備が行なわれ、最終的にはマイクロプロセッサ100によって実行される。

【0030】主×モリ101に配信された後、命令はパ スインタフェースユニット160を介して命令キャッシュ104へ伝えられ、そこで命令は一時昨保持される。命令アコーダ108は命令キャッシュ104から命令を敗出し、その命令を検索し、適切なアウションを決定する。たとえば、デコーダ108はある特定の命令がPOP、LOAD、STORE、AND、OR、EXOR、ADD、SUB、NOP、JUMP、条件JUM P(BRANCH)、その他の命令のいずれであるかを 決定し得る。どの特定の命令が存在するとデコーダ10 8が決定するかに依存して、命令はR1SCコブ110 の連切を機能ユニットにディスパッチされる。LOAD および5TOREはロードストアセクション134にデ ィスパッチされる主要な2つの命令である。ロード/ス トア機能ユニット134によって実行される他の命令に はPUSHBはドワロケがある。

【0031】典型的には、これらの命令は、OP CO DE, OPERAND A, OPERAND B, DE STINATIONというフォーマットの複数のフィー ルドを含む。たとえば、命令ADD A, B, Cは、レ ジスタAの内容をレジスタBの内容に加えてその結果を レジスタCに置くことを意味する。LOADおよびST ORE動作は多少異なるフォーマットを使用する。たと えば、命令LOADA、B、Cは、アドレスから取出し たデータを結果バストに置くことを意味し、ここでA、 BおよびCはAオペランドバス、Bオペランドバスおよ び変位バス上に位置するアドレス成分を表わし、これら のアドレス成分は組合わさって論理アドレスを与え、こ の論理アドレスはセグメントベースと組合わさって線形 アドレスを与え、そこからデータが取出される。また、 たとえば、命令STORE A, B, Cは、アドレスに よって示された位置にデータを記憶することを意味し、 ここでAはAオペランドバス上に位置する記憶データで あり、BおよびCはBオペランドバスおよび変位バスト に位置するアドレス成分を示し、これらのアドレス成分 は組合わさって論理アドレスを構成し、論理アドレスは セグメントベースと組合わさって線形アドレスを与え、 そこヘデータが記憶される。

【0032】OP CODBは、オペコードバスを介して命令デコーダ108からRISCコア11の機能ユーットへ与えられる。特定の命のOP CODBを適切な機能ユニットに与えなくてはならないことに加えて、命令用に指定されてのPERANDを取出して機能ユニットにあなくてはならなくてはならなくてはならなくてはならなくてはならなくてはならなくてはならない。もし特定のオペランドの値がまだ計算されていなければ、機能ユニットが命令を実行する前にその値を計算して機能ユニットに与えてくてはいけてい、たとえば、も別様の命令が声の命令に依存しているとすれば、現在の命令が美行される前に前の命令の結果を求めなくてはいけない。この状況は後属性と呼ばれる。

[0033] 機能ニーットが特定の命令を実行するのに を要なオペランドは、レジスタファイル112またはリ オーグバッファ114のいずれかによってオペランドバ スに与えられる。オペランドバスはオペランドドを適切な 機能ニューットがのF CODE OPERAND A、およびOPERAND Bを一旦 受取ると、機能ニーットは命令を実行し、かつその結果 を結果パス140日とに置く、結果パス140日はかての 機能ユニットの出力およびリオーダバッファ 1 1 4 に結 合される。

【0034】リオーダバッファ114は先入れ先出し (FIFO) 装置として管理される。命令アコーダ10 8が命令をデコードすると、対応するエントリがリオー ダバッファ114中に割当てられる。その後、命令の突 行が完了すると、命令によって計算された結果値が割当 てられたエントリに審込まれる。もし命令に関連する例 外がなく、かつ命令に影響を及ぼす可能性のある解決さ れていない分後がなければ、この結果値はその後レジス タファイル112に審込まれ、命令は顕確される。 関連 したエントリがリオーダバッファ114の光頭に影遣し たときに命令が完了していなければ、命令が完了するま でリオーダバッファ114の激行は停止される。しかし ながら、追加のエントリの割当ては継載できる。 [0035] 各類能ユニットは、まだ完了していない命 令からのOP COD Bを配情するためにそれぞれ保留

【0035】各腹限ユートは、まだ完了していない倫 合かかののP CODEを配情するためにそれぞれで ステーション回路 (RS) 120-126を含むが、こ れはなぜならその命令用のオペランドは規能ユニットに はまだ入手できないからである。各保留ステーション回 路は、後で保留ステーション回路に到場する欠けている オペランドの場所をとって並くタグとともに、命令のO P CODEを記憶する。この技術は、保留中の命令が 保留ステーションでそのオペランドと組合されている間 に、マイクロプロセッサ100が他の命令の実行を継続 することを可能にすることによって、性能を向上させ る。

20 (0036]マイクロプロセッサ100は、デコーダ108をRISCコア110の機能ユニットから分離することによって順序外の発行ができる。より特定的には、リオーグバッフフ114 および機能ユニットの保留ステーションは、効果的に分配命ウィンドウを確立することがかって、デコーダ108は、機能ユニットが在るためにおけて会合を引出す。このブールからを引出す。このブールから参り引出す。このオーグルップインドウは全のインドウはマイクロプロセッサ100にルックアへッドに対きを表える。後期性がクリアされて入りアドが利用可能になると、機能とガッリアされて入りアドが利用可能になると、機能と対りはウィンドウ中のより多くの命令を実行し、かつデコーダはさらに多くのデコードされていない命令でウィンドウを潜たと続け、

【0037】マイクロプロセッサ100は性能を高める ためにRISCコアの分岐セクション135を使用す る。分娩が起こると次の命令は分岐の結果に依存するた め、プログラムの命令ストリーム中の分岐はマイクロショ フ135は、命令の取出の間に発生する分岐の結果を予 謝する。つまり、分岐セクション135は入り彼が起こる かどうかを予報する。たとは、前50は分岐が起こる かどうかを予報する。たとは、前50はかりが起こる 原歴を維持するために、分岐ケーゲットドッファが用い られる。この原脈に基づいて、取出されたある分岐の間 に、取出された分岐命令がどの分岐をとるのかが決定が なされる。もし野外または分岐の予測問題いがあれば、 予測問題いの分岐令をに使って割当てられたリオーゲバ ッファ114の内容は振葉される。

【0038】図2を参照して、ロード/ストア概能ユニット134は、データキャッシュ150と相互動作し、かつすべてのLOAD命令およびすべてのSTORE命令を実行する概能ユニットである。ロード/ストア機能ユニット134は、保留ステーション回路124と、ストアバッファ回路180と、ロードストアントローラ 182とを含む、保留ステーション回路124は右つの保留ステーションエントリ(RSO-RS3)を含み、かつストアバッファ回路180は4つのストアバッファエントリ(SBO-SB3)を含む。

【0039】保留ステーション回路124はロード動作 またはストア動作を実行するために必要なすべてのフィ ールドを保持する。データ要素はクロックサイクル毎に 2つの保留ステーションエントリへ発行され、かつクロ ックサイクル毎に2つの保留ステーションエントリから リタイアできる。保留ステーション回路124は、4つ の結果バスと、4つの41ビットAオペランドバスの4 0ビットと、4つの41ビットBオペランドバスの32 ビットと、AおよびBタグ有効バスと、4つのAタグバ スと 4つのBタグバスと 4つの行先タグバスと、4 つのタイプコードバスと、2つの変位バスと、2つの I NLSバスとともに、データキャッシュ150のポート AおよびBの32ビットデータ部分に結合される。保留 ステーション回路 1 2 4 は 4 0 ビット A オペランドバス と、32ビット保留ステーションデータバス (RDAT A A, RDATA Bのそれぞれ)と、12ビットA タグバス (TAG A) と、12ビットBタグバス (T AG B) とともに、2つの32ビットアドレスバス (ADDR A, ADDR B)を介してストアバッフ ァ同路に結合され、2つのアドレスバスはまたデータキ ャッシュ150のポートAおよびBのアドレス部分に結 合される。保留ステーション124は、保留ステーショ ンロードバスおよび保留ステーションシフトバスを介し てコントローラ182に結合される。

【0040】保留ステーション回路124に結合される ことに加えて、ストアバッファ回路180は4つの結果 バスに結合され、かつまたストアバッファロードバスお よびストアバッファシフトバスを介してロードストアコ ントローラ182に結合される。ストアバッファ回路1 80はまた14Dバス102に結合される。

【0041】保留ステーション回路124およびストア バッファ回路180に結合されることに加えて、ロード ストアコントローラ182は物理タグ回路162および リオーグバッファ114に結合される。コントローラ1 82はまたデータキャッシュ150のキャッシュコントローラ190に結合される。

【0042】データキャッシュ150は線形にアドレス 指定された4方向にインターリーブされた8Kバイト4 方向セットアソシアティブキャッシュであり、これはク ロックサイクル毎に2つのアクセスをサポートし、言い 換えればデータキャッシュ150は二重の実行をサポー トする。データキャッシュ150の各セットは128の エントリを含み、各エントリは16バイトブロックの情 報を含む。各16バイトブロック情報は4つの個々にア ドレス指定可能な32ビットバンクのラインに記憶され る。データキャッシュ150に個々にアドレス指定可能 なバンクを設けることによって、データキャッシュ15 Oは2つのポートを設けることに関連したオーバーヘッ ドを必要とすることなく、2方向にアクセス可能なデー タキャッシュとして機能する。 データキャッシュ150 はデータキャッシュポートAおよびデータキャッシュポ ートBを介して2方向にアクセス可能であり、こうして データキャッシュ150は2つのロード動作を同時に実 行することができる。データキャッシュポートAは、デ ータ部分DATA Aと、アドレス部分ADDRAとを 含み、データキャッシュポートBは、データ部分DAT A Bと、アドレス部分ADDR Bとを含む。

【0043】データキャッシュ150はデータキャッシ ュコントローラ190とデータキャッシュアレイ192 とを含む。データキャッシュコントローラ190はデー タキャッシュ 150の様々な動作を統制するための制御 信号を与える。 データキャッシュアレイ192はデータ キャッシュコントローラ190の制御下でデータを記憶 する。データキャッシュアレイ192はデータ記憶アレ イ200と線形タグおよび状態アレイ202との2つの アレイで構成される。 データキャッシュアレイ200は DATA AとDATA Bとの2つのデータ信号をロ ード/ストア機能ユニット134に与える。線形タグア レイ202はロード/ストア機能ユニット134から与 えられる2つの線形アドレスADDR AおよびADD R Bを受け、かつ2つの4ビットタグヒット信号CO L HIT A0-35LUCOL HIT B0-3 をキャッシュアレイ200に与える。線形アドレスAD DR ABLUADDR BURENT-PARTEUL 200に与えられる。

【0044】ロード動作の間、ロードストア機能ユニット134の保留ステーション回路12 4はアドレスをデータキャッシュ15 0に与える。 もしこのアドレスをデャッシュとットを発生すれば、データキャッシュ150はストアレイ200の対応するバンクおよびブロック 中に配億されているデータを展望ステーション回路12 4に与える。もしアドレスがボートみを介してデータキャッシュ150に与えられると、データはボートAを介して優望ステーション回路124に与えられる。 代替的 して優望ステーション回路124に与えられる。 代替的

に、もしアドレスがポートBを介してデータキャッシュ 150に与えられると、データはポートBを介して保留 ステーション回路に与えられる。ポートAおよびポート Bを介して同時にアドレスがデータキャッシュ150に 与えられ、かつデータキャッシュ150からデータを受 mz

【0045】記憶動作の間、記憶データは保留ステーション回路124からストアパッファ回路180に与えられる。記憶動作が解除されると、記憶されているデータおよびそれに対応するアドレスはIAD/Xスを介してデータキャッシェ150に与えられる。

【0047】マルチアレクサ回路206および208は、入力として、4つの人みペランドバスと、4つのB ペランドバスと、4つのB イベランドバスと、4つの不分・4つのイスと、4つの行先タグバスと、4つのオペコードバスと、2つの流び入えと受好ら、エルチアレクサ回路20台および208はまた、ロード記憶コントローラ182からバス選択信号を受ける。バス選択信号はタイプコードの一般に基づいて発生する。

【0048】タイプコードの一数は、4つのタイプコードバスのうちの1つの上のタイプコードがロード記憶機能ユニットに削当てられたタイプコードに対抗する場合に発生する。タイプコードが一数する場合、ロード記憶コントローラ18 04 26 のパットのである。 人間では、10 4 4 2 2 2 4 4 2 2 つのバスから同時に信号を別出すことができる。 したがって、入力のマルチプレクヤ20 4 2 3 び入力 1 マルチプレクヤ20 4 2 3 であった。 アルドル・アルクヤ20 4 2 3 であった。 アルドル・アルクヤ20 4 3 であった。 アルドル・アルクヤ20 4 3 であった。 アルドル・アルクヤ20 8 のそれぞれについてロード記憶コントローラ18 2 によって第1の組のバス選択信号と、第2の組のバス選択信号と、第2の組のバス選択信号とが発生する。

【0049】第1の組のバス選択信号の制御下で、マルチプレクサ回路206は、第1のマルチプレクスされた保留ステーション入力信号【INPUT 0】を与え、これは保留ステーションへの入力信号として与えられる。INPUT 0倍号は、Aオペランドバスのうちの1つからの信号と、Aタグバスのうちの1つからのタグと、対応するタグ市効バスからのAタグに対応するタグ有効パントと、Bタグバスのうちの1つからのタグと、対応する

タグ有効バスからのBタグに対応するタグ有効ビット と、行先タグバスのうちの1つからの行先タグと、オペ コードバスのうちの1つからのオペコードと、変位バス のうちの1つからの変位とを含む。第2の組のバス選択 信号の制御下で、マルチプレクサ回路208は、第2の マルチプレクスされた保留ステーション入力信号(IN PUT 1)を与え、これは保留ステーションへの第2 の入力信号として与えられる。 INPUT 1信号は、 Aオペランドバスのうちの1つからの信号と、Bオペラ ンドバスのうちの1つからの信号と、Aタグバスのうち の1 つからのタグと、対応するタグ有効バスからのAタ グに対応するタグ有効ビットと、Bタグバスのうちの1 つからのタグと、対応するタグ有効バスからのBタグに 対応するタグ有効ビットと、行先タグバスのうちの1つ からの行先タグと、オペコードバスのうちの1つからの オペコードと、変位バスのうちの1つからの変位とを含 ŧr.

び。 【0050】保留ステーションエントリ210-213 の各々は、ロードおよびシフトビットのそれぞれととも
に、2つの入力信号1NPUT 0および1NPUT 1を遊剤に受ける。保留ステーションエントリ210-213はまた、4つの結果バスの各々から入力を受け、これらの結果バス人力はエントリのAオペランド部分およびBオペランド部分のみに与えられる。AオペランドタグおよびBオペランドタグトを分が行先クがスのうちの1つの上にある情報に対するとットを与えると、対応する結果バスから何情報が取出され、かつ保留ステーションエントリのAオペランドフィールド中へロードされる。

【0051】さらに、保留ステーションエントリRS0 は保留ステーションRS1またはRS2のいずれかから 保留ステーションエントリを受け、保留ステーションエ ントリRSOはRSO保留ステーションエントリの一部 (Aオペランド部分)をRDATA A信号としてスト アバッファ回路180に与え、かつすべてのRS0保留 ステーションエントリをR0加算器216に与える。R 0加算器216はこの保留ステーションエントリを用い てADDR A信号を発生する。保留ステーションエン トリRS1は保留ステーションRS2およびRS3から 保留ステーションエントリを受け、保留ステーションエ ントリRS1はRS1保留ステーションエントリの一部 (Aオペランド部分)をRDATA B信号としてスト アバッファ同路180に与え、かつすべてのRS1保留 ステーションエントリをR1加算器218に与える。R 1加算器218はこの保留ステーションエントリを用い てADDR B信号を発生する。保留ステーションRS 2は保留ステーションRS3から保留ステーションエン トリを受け、保留ステーションエントリRS2はRS2 保留ステーションエントリを保留ステーションRS1お

よびRSOに与える。保留ステーションRS3はRS3 保留ステーションエントリを保留ステーションRS2お よびRS1に与える。

[0052] バラレル転送構造とともに保留ステーションからの並列の入力および出力を与えることによって、保留ステーション回路124は1サイタル当たり1つまたは2つのロード動作を実行し得る。より特定的には、ロードおよびシフト信号を用いて、コントローラ182 は、1つまたは2つの保留ステーションエントリが所与のサイクル中にロードまたはシフトされ得るように保留ステーションエントリのロードおよびシフトを制御する。

【0053】1サイクル当たり1つの展配ステーション
エントリが実行されている場合、保留ステーションRS
0はロード動作もよびストア動作の両方のために保留ステーションエS
らに、RSのはストア動作の応りに保留ステーション
エントリをRS1は保留ステーションエントリを保留ステーションエントリを保留ステーションエントリを保留ステーションエントリを保留ステーションエントリを保留ステーションRS1は失配ステーションRS1は失配ステーションRS1は失配ステーションRS1は失配ステーションRS1は失配ステーションエントリを保留ステーションエントリを保留ステーションとスとは保留ステーションエントリを保留ステーションRS1に与え、かつ保留ステーションRS1に与え、かつ保留ステーションエントリを保留ステーションTのには、RS0加算器回路216によって発生したアドレスに対応するデータがドライが回路220に与えられる。

【0054】1サイクル当たり2つの保留ステーション エントリが実行されている場合、保留ステーションRS のおよびRS1はロード動作およびストア動作の両方の ために全保留ステーションエントリを加算部間移21 6、218に与える、保留ステーションRS23はよびR S3は保留ステーションエントリを保留ステーションR S0およびRS1の本行れたに与える。ロード動作のか がには、RS0およびRS1の本行に与える。ロード動作のか からは、RS0およびRS1の本がに与えな。ロード動作のか からDATA AおよびDATA Bとして与えん る。1サイクル当たり2つの保留ステーションエントリ が実行され、かつ一方の動作は一下であり他方の動作 はストアである場合、ストア動作そこから実行され 保留ステーションエントリがストアバッファ180に与

[0055] ロードによりキャッシュミスが発生すれば、ロードミスアルゴリズムを実行しなくてはいけない。このロード制作は仮想的なものであるため、ミス動作はロードが次にリタイプするRのPとなるまで開始されない。このため、ロードはRSの保留ステーション中で脅す。リオーグバッファからの解除信号を持つ。ステータス表示は行先ケグとともにこの状態を示すためにリオーダバッファにドライブバックされる。
[0056] 国を参照して、各保留ステーションエン

トリ124は、保留ステーションエントリ有効ビット ビットBオペランドフィールドと、32ビット変位フィ ールドと、4 ピット行先タグ (DTAG) フィールド と、8ビットオペコードフィールドと、8ビット追加オ ペコード情報 (INLS) フィールドとを含む。 さら に、各保留ステーションエントリはまた、4 ビットAオ ペランド F位バイトタグ (ATAGU) と、4ビットA オペランド中位バイトタグ (ATAGM)と、4ビット Aオペランド下位バイトタグ (ATAGL)と、4ビッ トBオペランド上位バイトタグ(BTAGU)と、4ビ ットBオペランド中位バイトタグ (BTAGM) と、4 ビットBオペランド下位バイトタグ(BTAGL)と を、対応するAオペランドタグ有効ビットおよびBオペ ランドタグ有効ビットとともに含む。各保留ステーショ ンエントリはまた、対応する取消ビット(C)を含む。 【0057】Aオペランド上位、中位および下位バイト タグは、整数オペランドの上位、中位および下位部分用 のタグである。整数オペランドはこのように除算される が、これはなぜならx86アーキテクチャでは、x86 整数の下位半ワードの上位バイトもしくは下位バイト、 下位半ワード、または32ビット倍長語全体のいずれか を参照することが可能なためである。したがって、Mお よびしは下位半ワードの上位バイトおよび下位バイトを 示し、かつUはBオペランド用の上位半ワードおよびA オペランド用の残りの上位ビット(Aオペランドの残り の部分は16ビットまたは24ビットのいずれかであり 得るため)を示す。下位半ワードを参照する場合、Lタ グおよびMタグは同じ値に設定される。保留ステーショ ンエントリ中で係属中である32ビット値を参照する場 合、3つのタグすべてが同じ値に設定される。

【0058】取消ビットは特定のオペコードが取消されることを示し、このビットは何らかのオペコードが予測 該り分娩内にある場合に設定される、オペコードが予測 該り分娩内にある場合に設定される、オペコードが取消 されるのは、実行されるストアがデータキャッシュ15 0にストアされるエントリの状態を更新するときに、データキャッシュ150中でヒットした取消されたストア がストアバッフで開路180に入ることを防止するため である。取消されたロードはデータキャッシュ150中 にヒットがあっても結果を戻すだけであり、ロードはど の状態も更新しないために開発しななをない。

【0059】保留ステーションエントリの保留ステーションエントリ有効ビットは、INPUT 0入力信号もよびINPUT 1入力信号のディスパッチ有効ビット部外に結合される名入力信号有効ビットは、ディスパッチカグビットがセットがあるときたセットされる。保留ステーションエントリのAオペランドタイールドはINPUT 0入力信号もよびINPUT 1入力信号のAオペランド等分に結合される。保留ステーションエントリのBオペランドフィールドはINPUT 1入力信号のAオペランド等分に対る。保留ステーションエントリのBオペランドフィ

ールドはINPUT 0人力信号およびINPUT 1人力信号のBオペランド部分に結合される、保留ステーションエントリの変位フィールドはINPUT 0人力信号を表びINPUT 1人力信号の変位部がに結合される、保留ステーションエントリの所先クプライールドはINPUT 0人力信号をおむる、保留ステーションエントリのオペコード部かに結合される。保留ステーションエントリの遺加オペコード情報 (INLS)フィールドはINPUT 1人力信号のINLS部分に結合される。

【0060】保留ステーションエントリのAオペランド 上位バイトタグと、中位バイトタグと、下位バイトタグと 住はINPUT 0入が信号およびINPUT 1入力 信号のAタグ番がに結合される。Bオペランド上位バイ トタグと、中位バイトタグと、下位バイトタグとはIN PUT 0入力信号およびINPUT 1入力信号のB タグ部がに結合される。保留ステーションエントリのA オペランドタグ有効ビットもよびBオペランドタグ有効 ビットはINPUT 0入力信号もよび INPUT 1 入力信号のタグ本効率かに結合される。保留ステーショ ンエントリの取消ビットは、ロードストアコントローラ 182に結合され、かつリオーグバッファ114および 分娩セクション135から受取った制御情報に基づいて セットよりA

【0061】ロードストアコントローラ182によって 発生したタイプー表信号は、何らかの命令がロードスト 飛龍ルニットに送られたかどうかを決定する、より特 定的には、ロードストアコントローラ182がロードスト ア機能ユニットタイプコードが4つのTADバスのう らの1つに与えられたタイプコードと一致すると判断した場合。ロードストアコントローラ182はINPUT の信号のかめにその特定のディスパッチ位置を選択する。ロードストアコントローラ182がロードストアコントローり182がロードストア 能ユニットタイプコードが4つのTADバスのうちの別 のものによって来よられたタイプコードと一致する 断すれば、ロードストアコントローラ182はINPUT T1信号のためにその特定のディスパッチ位置を選択する。

【0062】図5を参照して、RSO加度器回路216 は保留ステーション210からアドレス成分を受け、か つ線形アドレス信号を見る、RSO加算器回路216は、論 理アドレス加算器240と線形アドレス加算器242を を含む。論理アドレス加算器248を 形アドレス加算器240と線形アドレス加算器 240はネイスランドルチアレクサ244からAオペ ランド加算器信号を受け、Bオペランドカルチアレクサ 246からBオペランド加算器信号を受け、かつ変位マルチプレクサ248から変位加算器信号を受ける。

【0063】オペランドマルチプレクサ回路244は量 ゼロを受けるとともに、保留ステーションエントリ21 OからAオペランドを受け、マルチプレクスされAオペ ランド加算器信号として与えられる値は、ロードストア コントローラ182から受取ったアドレスモード制御情 楊によって決定される。Bオペランドマルチプレクサ回 路246はシフト回路247からスケーリングされたB オペランドを受ける。Bオペランドは、INLSバスを 介して命令デコーダ108から受取ったスケール信号に 基づいてスケーリングされる。Bオペランドマルチプレ クサ回路246はまた、ロードストアコントローラ18 2の制御下で開始アドレスレジスタ249にストアされ る開始アドレスと、以前の誤整列したアクセスから誤整 列したアクセスレジスタ451にストアされる誤整列し たアクセス1アドレスとを受ける。マルチプレクスされ Bオペランド加算器信号として与えられる値はアドレス モード制御情報によって決定される。変位マルチプレク サ回路248は保留ステーションエントリ210から変 位アドレス成分を受ける。変位マルチプレクサ回路24 8はまた、量4、5、-4、および-2を受ける。マル チプレクスされかつ変位加算器信号として与えられる値 はアドレスモード制御情報によって決定される。

【0064】 整列したアクセスロード動作については、 Aオペランドがマルチプレクサ244によって選択さ れ、Bオペランドがマルチプレクサ246によって選択 され、かつ変位が248によって選択される、調整列し たアクセスロード動作、つまり倍長語境界を横切るアク セスについては、第1の誤整列したアクセスアドレスが ノーマルロード動作として発生し、かつ加算器240は 誤整列したアクセス1アドレスを発生する。誤整列した アクセス1レジスタ251はこの誤整列したアクセス1 アドレスを保持する。次のクロックサイクルでは、Aオ ペランドマルチプレクサ244によって値0が選択さ れ、Bオペランドマルチプレクサ246によって値4が 選択され、かつマルチプレクサ248によって調整列し たアクセス1アドレスが選択され、こうして加算器24 Oが調整列したアクセス1アドレスに量4を加える。複 数ROP動作、たとえば64ビットロード動作について は、ノーマルロード動作として第1のアクセスアドレス が発生され かつ加算器240は物数ROP開始アドレ スを発生する。開始アドレスレジスタ249はこの開始 アドレスを保持する。第2のROPがアクセスされる場 合、マルチプレクサ248からの開始アドレスと、マル チプレクサ246からの値4とを加えることによって第 2のROPアドレスが形成される。80ビット複数RO P動作については、マルチプレクサ246によって値5 が与えられる。各複数ROP動作は誤整列する場合があ り、この場合は、開始アドレスは誤整列したアクセスア

ドレス1と同じ働きをする。PUSH動作については、動作のアクセスサイズに依存してBオペランドアドレス からある値が成じられる。もしアクセスサイズが衝長器 であれば、値4が減算され、もしアクセスサイズが簡で あれば、値4が減算され、もしアクセスサイズが簡で あれば、値2が減算される。シフト回路27を削削する スケーリング係数が1NLS情報に基づいてロードスト アコントローラ182によって発生する。

【0065】加算器回路216はまた、セグメントディ

スクリプタアレイ250と、リミットチェック回路25 2とを含む。セグメントディスクリプタアレイ250は セグメントリミット信号をリミット回路252に与え、 セグメントベースアドレス信号を加算器回路242に与 える。リミットチェック回路252はまた、論理加算器 240から論理アドレスを受け、かつ論理アドレスがセ グメントディスクリプタアレイ250によって与えられ るリミットで説明されるようなセグメントリミット内で あることを示す有効セグメントアクセス信号を与える。 【0066】加算器回路240は、Aオペランド加算器 信号とBオペランド加算器信号と変位加算器信号とを受 け、これらの信号を加算して論理アドレス信号を与え る。加算器回路242はセグメントディスクリプタアレ イ250から受取ったセグメントベースアドレスを論理 アドレスに加えて線形アドレスを与える。 【0067】RS1加算器218はRS0加算器と同様 であるが、ただしRSO保留ステーションを用いる場合 にのみ整列していないアクセスが実行されるため、RS 1加算器218はマルチプレクサ248を含まない。R S1加算器218中では、変位加算器信号として変位が 直接加算器240に与えられる。さらに、未整列のアク セスは実行されないため、RS1加算器218用のマル チプレクサ246には値4および値5は与えられない。 【0068】図6を参照して、ストアバッファは、Aボ ートマージ回路306およびBポートマージ回路308 とともに、4つのストアバッファエントリSBO 30 0, SB1 301, SB2 302, #\$USB3 303を含む。ポートマージ回路306はデータキャッ シュ150からAポートデータ信号を受け、かつ保留ス テーション回路124の保留ステーションエントリRS OからAポートデータ信号を受け、さらにこれらの信号 をマージしてストアバッファエントリSB0-SB3に マージされたAデータ信号を与える。Bポートマージ回 路308はデータキャッシュ150からBポートデータ 信号を受け、かつ保留ステーション回路124の保留ス テーションエントリRS1からBポートデータ信号を受 け、さらにこれらの信号をマージしてストアバッファエ ントリSBO-SB3にマージされたBデータ信号を与 える。マージ回路306、308を設けることにより、

【0069】たとえば、4バイトDATA A信号のう ちの1バイトが、保留ステーション回路124によって

ステアリング機能が与えられる。

与えられる場合に更新されているかもしれない。この更 新されたバイトは、データキャッシュ150によって与 えられたDATA A信号からの3つの残りのバイトと マージされる。マージ回路306、308は、アクセス サイズ、線形アドレスの最下位2ビット、およびアクセ スが誤整列されたアクセス1であるかまたは誤整列され たアクセス2であるかに基づいて、ロードストアコント ローラ182によって制御される。読出修正書込動作と してストアが行なわれるため、マージ回路306、30 8によって与えられるステアリング機能が可能である。 このステアリング機能を与えることにより、データキャ ッシュ150はデータキャッシュ150へのすべてのア クセスが32ビット倍長語アクセスであるため複雑なス テアリング同路を必要としない。さらに、ストアバッフ ァエントリ中にある情報はすべてデータキャッシュ15 0にストアされる予定の情報を反映しているため、ロー ドストア機能ユニット134がロード転送動作を行かう ことが可能となる。ロード転送動作においては、ストア バッファエントリをアクセスすることによってストアが 実際にデータキャッシュ150中にストアされる前にロ ードが実行されてもよく、ロード転送によりマイクロプ ロセッサのクリティカルなタイミング経路からストア動 作を取除く。

【0070】各ストアバッファエントリはまた、4つの 結果バスから入力信号を受け、保留ステーション124 からADDR Aアドレス信号およびADDR Bアド レス信号を受け、かつ保留ステーション124からTA G Aタグ信号およびTAGRタグ信号を受取るととも に、ロードストアコントローラ182から制御信号を受 取る。これらの制御信号はロード信号およびシフト信号 を含む。さらに、ストアバッファエントリSBOはスト アバッファエントリSB1からの出力を受け、かつスト ア出力をIADバス102に与える。ストアバッファエ ントリSB1はストアバッファエントリSB2から出力 されたストアバッファエントリを受け、かつまたストア バッファエントリSBOから出力されたストアバッファ エントリを受け、さらにストアバッファエントリ出力を SB0に与える。ストアバッファエントリSB2は、ス トアバッファエントリSB3から出力されたストアバッ ファエントリを受け、かつまたストアバッファエントリ SBOおよびSB1からエントリを受け、さらにストア バッファエントリ出力をSB1に与える。ストアバッフ ァSB3は、ストアバッファエントリSB0、SB1お よびSB2から出力されたストアバッファエントリを受 け、かつストアバッファエントリ出力をSB2に与え

【0071】ストアバッファエントリSB1-SB3に 下位ストアバッファエントリからのフィードバックを与 えることにより、ストア転送動作が可能となる。たとえ ば、ストアバッファエントリSB0を上位ストアバッフ ァエントリSB1 - SB3に与えることによって、これ らのストアバッファエントリが同じ搬形アドレスを有す 結場合にSB0 トアバッファエントリと と登組合わせることができる。さらに、ストアバッファ エントリがストアされる場合はエントリに対するあらゆ る修正を含む。ストア転送機能については以下により詳 しく認明する。

[0072] ストア転送により、前のストアがデータキャッシュ150にストアされるまで保留ステーションを作止させることなくシステムが動作できる。 x86アーキテクチャにおいては、かなりの数の連続したバイトのアクセスが発生するため、ストア動作に対するロード動作の従属性を取換くことによって、ロードが行なわれる 速度がストア転送によって大幅に上昇する。

(0073) 図7を参照して、ストアバッファ回路18 0の海ストアバッファエントリSB0-SB3はストア ボッファエントリ339で説明した情報を含む、ストア バッファエントリ339は32ビットデータ信長語34 0と、タが盛か341と、32ビットデータ信長語34 0は4つのデータバイト、つまりデータバイトの一デー タバイト3を含む。

【0074】タグ部か341はデータバイト0一3に対 応する4つのバイトタグ部か2を10、バイト0タ/部分 はバイトのタグで (TAG BYTE 0)と、バイトの 制御ビット(B0)と、バイトのタク部分ビット(T V)とを含む、バイトリタク部分は、バイト19タグ スイトリクキカガビット(T AG BYTE 1)と、バイト1制御ビット(B1) と、バイト2タグ部分は、バイト19年で シス・バイト29が日本10、ドイト29で イバト29が開ビット(B0, B1)と、バイト39が開ビット (オー29が1分は、バイト39が日本10、バイト39が開ビット (オー30、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト39が日本10、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト30、バイト

【0075】バイトタグTAG BYTE 0-3は結果
ルズスからデータバイトつるを別出すためのタクトイトのようを別出すためのタクト
える、バイト制御ビットはどの結果パスパイトからデータバイトが取出されるべきかを示す。より物定的には、バイトの制御ビットBのがセットされている場合し、
レバイトの制御ビットBがクリアされていれば、データが結果パスパイトから能送されるべきであり、もしバイトの制御ビットBがプリアされていれば、データが結果パスパイトのから能送されるべきであり、もしバイト、1制御ビットBIがセットされている場合は、結果パスパイトトのからデータが認発されるべきであり、もしバイト、1制御ビットBIがリアされていると、データが結果パスパイト1から感送されるべきであっ、もしバイト、1制御ビットBIがヒットされている場合は、結果パスパイト1からデータが振送される、ペラであるとを示す。パイト2制御ビットBIがヒットされている場合は、結果パスパイト1からデータが振送されるべきであると表示。パイト2制御ビットBIがヒットされている場合は、結果パスパイト1からデータが振送される。

トされている場合は、結果パスパイトのからデータが転送されるべきであることを示し、もしパイト2制削ビットBのおよびB1がクリアされていると、データは結果パスパイト2から転送されるべきである。パイト3制制ビットB1がセットされる場合は結果パスパイト1から3制制ビットBのがセットされている場合は結果パスパイトのからデータが転送されるべきであることを示し、たしパイト3制制ビットB0がよりであることを示し、なしパイト3制制ビットB0はよびB1がクリアされていると、データは結果パスパイト3から転送されるべきである。バイトタグ有効ビットTVは対応するタクフィールドが有効パイトタグを含むことを示す。

【0076】ストアバッファクグはメモリ中の実際の人 人も位置を示すが、保留ステーションタグではタクと位 置との間には1対1の対応は存在しない。保留ステーションタを無いれば、レクグおよびがタグはストアバッファタグ内の任意の場所にマッピングすることができ る。有効タグのついた未整例のアクセスはストアバッファの中いは入れない。未整例のアクセスは入下だついて、 は、保留ステーションエントリアSOおよびRS1は保 留ステーションが体効データを受取るまで特徴し、その 後データは2つのストアバッファエントリとしてストア バッファに与えられる。

【0077】制御部分344はストアバッファエントリ 有効ビット (V) と、2ビット未整列アクセス制御信号 (UA)と、書込保護ビット(WB)と、キャッシュ不 可ストアビット (NC)と、入力/出力アクセスビット (IO)と、浮動小数点更新ポインタビット(FP) と、物理アクセスビット (P) と、ロックされたアクセ スピット(L)と、2ビットカラム表示ビット(C1) とを含む、ストアバッファエントリ有効ビットは、特定 のエントリが有効である、つまりこのストアバッファエ ントリ中に何らかの有効な情報がストアされていること を示す。未整列のアクセス制御信号は、未整列のアクセ スのどの部分、つまり第1の部分または第2の部分のど ちらがエントリにストアされるかを示す。キャッシュ不 可ストアピットは、ストアエントリがキャッシュ不可な ためエントリをデータキャッシュ150に書込むことが できないことを示す。I/Oアクセスビットは外部イン タフェースに対して I/Oアクセスが発生していること を示す。物理アクセスビットは、ストアアドレスが物理 アドレスであるため、メモリ管理ユニットが線形-物理 変換をバイパスすべきであることを示し、これはロード ストア機能ユニットがメモリ管理ユニット164のペー ジディレクトリまたはTLBのいずれかを更新している 場合に発生する。ロックされたアクセスビットは、以前 のロードによってロックされているかもしれない外部バ スのロックを外すことを示す。カラム表示信号は、デー タキャッシュの4つのカラムのうちの書込まれつつある 1つを示し、このためストア動作を実行する際にデータ

キャッシュ150中でカラムルックアップを実行する必要がないことを示す。

【0078】図8を参照して、ストアバッファエントリ 回路SB2 302が各ストアバッファエントリ回路の 一例として示される。ストアバッファエントリ回路30 2は、ストアバッファエントリ339のデータバイト0 - 3に対応するストアバッファエントリバイトデータマ ルチプレクサ362, 363, 364, および365 と、ストアバッファエントリ339のタグに対応するス トアバッファエントリタグマルチプレクサ370と、ス トアバッファエントリマルチプレクサ339のアドレス に対応するストアバッファエントリアドレスマルチプレ クサ372とともに、ストアバッファエントリレジスタ 360を含む、ストアバッファエントリ回路302はま た、タグ比較回路374とアドレス比較回路376とを 含む。ストアバッファエントリレジスタ360は、スト アバッファデータエントリレジスタ380と、ストアバ ッファアドレスエントリレジスタ382と、ストアバッ ファタグエントリレジスタ384と、ストアバッファ制 御エントリレジスタ386とを含む。

【0079】ストアバッファエントリレジスク開路36 Oは、ストアバッファエントリデータバイトマルチプレ ウサ362-365と、タグマルチプレクサ370と、 アドレスマルチプレクサ370とからストアバッファエントリ339を整列に受け、かつストアバッファエントリ339を生み18よび5B3に送りにストアバッファエントリ339を与えるレジスクである。さらに、ストアバッファデータエントリレジスク380は、保留ステーシェンミサ可能520のデータボートもおよびデータボートBにデータバイト0-3を与える。これらのデータバイトはロードストで開催ニエット134によるロード 転送機舎の東京子の単にかるよりなようようも3

【0080】バイトマルチプレクサ回路362-365 は、Aマージ回路306、Bマージ回路308、および 4つの結果バスならびにストアバッファエントリ回路S B3、SB0およびSB1からそれぞれバイトを受取 る、バイトマルチプレクサ回路362-365はストア バッファ制御信号によって制御され、これらのストアバ ッファ制御信号は、各ストアバッファエントリ毎の線形 アドレス、および保留ステーション中のエントリからの 線形アドレスの一致に基づいてロードストアコントロー ラ182によって与えられる。結果バスはストアバッフ ァ制御信号によって制御され、これらのストアバッファ 制御信号は特定のバイトについてタグ有効ビットが存在 するかどうかに基づいてロードストアコントローラ18 2によって与えられる。もしタグ有効ビットが特定のバ イトについてセットされると、その特定のバイトは結果 バスをモニタし、かつタグに一致する値を有する結果バ スであればどれでもマルチプレクスする。

【0081】たとえば、バイトマルチプレクサ回路36

2は、Aマージ信号と、Bマージ信号と4つの結果信号 と、ストアバッファエントリSB3、SB0およびSB 1との各々からがトロラータを変数る、ストアバッファ 前側信号に基づいて、バイトマルチプレクサ回路36 2はこれらのデータバイトの1つをストアバッファレジ スク回路360中に保持されるSB2ストアバッファエ ントリとして考える。

【0082】ストアバッファデータレジスタ380にス トアされる各バイトはメモリにストアされているものを 直接反映するため、データバイトをメモリにストアされ ているものに対応させるようにバイトステアリングが設 けられる。バイトステアリングは、バイトマルチプレク サ0 362およびバイトマルチプレクサ1 363に 4つの結果バスバイト 0 および 4 つの結果バスバイト 1 からの入力を並列に与え、バイトマルチプレクサ2 3 64に4つの結果バスバイト0、4つの結果バスバイト 1および4つの結果バスバイト2からの入力を並列に与 またかつバイトマルチプレクサ3 365に4つの結果 バスバイト0、4つの結果バスバイト1および4つの結 果バスバイト3からの入力を並列に与えることによって 設けられる。結果信号のLバイトおよびMバイトはスト アバッファ中のどのバイト位置にも対応し得るため、マ ルチプレクサ2および3 364、365は結果バスバ イトのおよび1を受取る。しかしながら、結果バイト2 はデータバイト2にのみ対応でき、かつ結果バイト3は データバイト3にのみ対応できる。

【0083】アドレスマルチプレクサ372は、保留ス テーション124からADDR A信号とADDR B 信号とを受取り、これらのアドレスのうちの1つを線形 アドレス342としてストアバッファアドレスレジスタ 382に与える、ストアバッファアドレスレジスタ38 2は、ストアバッファエントリ339のアドレス部分3 42をアドレス比較回路372に与え、アドレス比較回 路372はまた保留ステーション124からADDR A信号とADDR B信号とを受取る。アドレス比較回 路372はADDR A信号およびADDR B信号を 各クロックサイクル毎に線形アドレス342と比較す る。ADDR AまたはADDR Bと線形アドレス3 42との間が一致すれば、ロードストアコントローラ1 82は保留ステーション124にストアバッファデータ レジスタ380からデータを読出させ、これはデータキ ャッシュ150の対応するポートではなくてアドレス比 較一致に対応するボートを介して行なわれる。

【0084】タグマルチブレクサ370はストアバッフ ァエントリSBO、SB1およびSB3からタグを受取 。タグマルチブレクサ370はまた保留ステーション エントリのAタグおよびBタグからタグを受取る。タグ バイトはタグレジスタ384に保持され、転送される が、タグレジスタ384は結果バスからタグ入力を受取 らない、結果バスからのタグはタグ期時回路374によ ってモニタされる。もしタクレジスタ384によって保持されるタグが結果バスの1つからのタグと一致すけば、タグ制御回路374は、タグの一致をよえる結果バスがデータを対応するストアバッファデータレジスタへ与えるようにバイトマルチプレクサ362-365を制御する。

【0085】ストアバッファエントリ339の制御部分344はロードストアコントローラ182によってストアバッファ制御レジスタ386に与えられる。

【0086】ストアバッファエントリ回路SBO、SB 1およびSB3の唯一の相違点は、他のストアバッファ エントリから入力信号が与えられることである。より特 定的には、ストアバッファエントリSBOはストアバッ ファエントリSB1からの出力だけを受取る。ストアバ ッファエントリSB1はストアバッファSBOおよび B2からの出力エントリを受取る。ストアバッファエン トリSB3はストアバッファSBO、SB1およびSB 2からの出力エントリを変取る。ストアバッファエン トリSB3はストアバッファSBO、SB1およびSB 2からの出力エントリを変取る。

【0087】図6 一図8を参照して、ストアバッファ1 80は低層中のストア動作を一時的にストアする、スト アバイトタグを用いることによって、これらの信息中の ストア動作は必ずしも完全なストアデータを有する必要 がない、さらに、ストアバッフェントリフィードツッ クとともにストアバイトタグを用いることによって、ストアバッファ180はストア派送動作を実行する。さら に、ロード動作はデータキャッシュ150にまだった。 ストアバッファ180はロード転送動作を実行可能である。

【0088】たとえば、係属中の32ビット更新に伴う レジスタの倍長期のストアのためには、各タグ有効ビッ トによって示されるように保留ステーションエントリ中 のバイトタグ0-3が有効である。機能ユニットがスト ア動作用の値を生成しようとしているがまだ生成してい ない場合に、更新が係属中であると呼ぶ。もしキャッシ ュアクセスによってキャッシュヒットが与えられると、 ストア動作は保留ステーションエントリRSOからスト アバッファ回路180へと移る。保留ステーションエン トリのAオペランド 上位バイトタグATAGUは、スト アバッファエントリ中のバイト3およびバイト2タグと して複製される。ATAGLおよびATAGM保留ステ ーションバイトタグは、それぞれストアバッファバイト 0タグおよびバイト1タグとして与えられる。(倍長語 の書込の場合、これらのタグのすべては実際には同一で ある。) バイト制御ビットB OおよびB 1 のどちらもセ ットされない。機能ユニットによって結果が利用可能と なると、ストアバッファ180はタグ比較回路374を 用いて各バイトタグを結果バス上に現われるタグと比較 し、かつマルチプレクサ362-365を用いてタグが 一致するときはいつでも結果バスの各バイトからのデー タをゲート入力する。 倍長語のストアの際には各バイト は同時に一致する。

【0089】係駅中の俗長額およびそれに続く同じ俗長 節の1パイトに対する係画中のバイト更新に伴うレジス タへの倍長額の記憶のためには、少なくとも2つのタグ が最終信長額に現われる。同一のタグがバイト0、2お よび3について用いられ、かつバイト1については現な るタグが用いられる。この異なるタグは第2のバイトス トアが浄生したことを表わす。より物だ的には、第1の 体長額は4つの有効タグとともにストアバッファエント リSB1にストアされ、かつバイトストアは新しいタグ がバイト1に位置した状態で上位ストアバッファエント リSB1中にストアされ、一方、バイトの、29まだ。 がストにバイト1結果を身え、バイト制御ビットを用い バス上にバイト1結果を身え、バイト制御ビットを用い アバイト164年表テアリングなしに俗長額ストアバッ ファエトリ中へ都込むストア転送が建成される。

【0090】 メモリ中のバイト2およびバイト3への係属中の更新に伴うワードレジスタへのワードストアのためには、BIビットがバイト3中でセットされら0ビットがバイト2中でセットされた状態でバイト0もよびバイト1のためのグがバイト2もた状態でバイトのもよびバイト3中にインスをは、このタグが結果バスレに駆動されると、これらのバイトはそれぞれ、このタグに対応する結果バスのバイトのおよびバイト1からストアバッファデータング、ダフォントリにストアされる1ワードに対してストアが、ファスアントリにストアされる1ワードに対してストアバッファエアトリにストアが、ファエントリにストアされる1リードに対してはまる。ストアバッファエントリのこののバイトはおそらくは異なる時間に異なる時間に異なる時間に異なる場所である。

【0091】バイトストアについては、ソースバイトが 上位バイトであるか下位バイトであるかに依存してB1 ビットまたはB0ビットがセットされるタグとしつのバ イトとが取換えられる。このタグが一致すると、結果バ スの示されたバイトからのデークをゲートさ。このこ とは係属中の一韻または俗を無更新を有するレンスタの バイトストアの場合にも当てはまる。この場合、バス全 体が有効データを含み得るとしても、バイトは結果バス の対応する位置によることが写過される。

【0092】ストア動作を実行している場合、ストアの 窓出局面でデータキャッシュ150ではなく下位ストア バッファエントりから販送されたデータを受販ることが ある、その結果、ストアバッファ180は既たタグを持っているデータ語の中へタグを排入する。これはなとよ ば1つ以上のバイトが短い時間間隔の間に同一の倍長語 中へ混込まれる場合に発生する。したがって、ストアバ ッファエントリにストアされる情報は、その各々が異な るも観光を表わず1つ以上のタグを持つことが可能であ る。動作中には、各タグは結果バスとの比較を行ない、 が遅びた明に強切ながイトをゲート入力する、未整列の ストアはストアバッファ180の中へタグを書込むこと はできないので、おかしな転送は発生しない。

【0093】ロード動作を実行する場合、ストアバッフ 7180のアドレス比較回路376は、RSのおよびR S1加算器によって与えられる接形アドレスをストアバ ッフェエントリの起形アドレスと比較する。アドレス比 映回路376か与よるヒット信号が示すように、ロード アドレスとよアバッファエントリの1つにストアされ たアドレスとが一致すると、ロードストアコントローラ 182はロードがストアに依存していると判断する。も レロードがストアに依存していると判断する。も レロードがストアに依存していれば、線形アドレスの一 数を与えたストアバッファエントリからのデータが、ア ドレスの一数が与よられたいずれかのボートを介して与 よられる。この時はロードが送動件と呼ばれる。

【0094】図のを参照して、データキャッシュ150 は線形にアドレス指定されたキャッシュである。引用に より振用される「線形アドレス指定可能をマイクロプロ セッヴキャッシュ(Linearly Addressable Ricroproces sor Cache)」と題された同時出際の水国特許出那連続等 号第146、381 号は、データキャッシュ150の総形アド レス機能についての構造および動作をより詳細に説明し ている。

[0095] データキャッシュ150のエントリ400 が示される。データキャッシュ150の各エントリごとに、キャッシュエントリに対応する格影アドレスのちの中位でットはキャッシュインデックスを与え、このキャッシュインテックスは総形タグアレイを下いました。 名線形アドレスの上位ビットは、アドレスタグアレイ 310から放出されたエントリ内にストアされる総形データタグと比較される。名線形アドレスの上位ビットは、アドレストリンのよりでは、アドレスが大力を対している。大学アレイがよった。 名線形アドレスの ま下位じゃ は近時されたエントリ内にストアされる総形データタグと比較される。名線形アドレスの大力では、他形アドレスによってアドレス構定された実際のパイトを見つける。データキャッシュ150は常に32 ビットアードの下るさなか。 たれらの展下位ビットはデータキャッシュ150にアウセスする場合には使用されたい

【0096】データキャッシュ150のデータキャッシュエントリ401は銀形アドレスタグエントリ402とデータエントリ404とを含む。データエントリ404 は16パイト(DBYTE0-DBYTE15)プロ・クラータをも、データ線形・ドレスタグエントリ402は、データ線形タグ値(DTAG)と、線形アケバト(TV)と、有効物理変換ビット(P)とを含む、線形アドルスルの上位21ビットに対応するデータ線形タグ値は、対応するストアアレイエントリにストアさんがロックの機形プロックフレームアドレスを示す。線形タグ領が一大の大い大を示す、線形タグ有効ビットは線形タグが有効であるかどうかを示す。有効物理変換ビットはエントリが物理タグヒットを含まる人もあかどうかを示す。有効物理変換ビットはエントリが物理タグヒットを含まる人もあかどうかを表し、これについては以

下に説明する。

【0097】図10を参照すると、総形にアドレス指定 可能なデータキャッシュ150のデータキャッシュ線が タグ陽路202とデータキャッシュストアアレイ200 とが完まれる。データキャッシュ150は4つの2Kパ イトカラムに、つまりカラム0、カラム1、カウム とはたカラム3に配列される。データ線形タグ回路20 2は2つの線形アドレスADDR AとADDR Bと を門時に変収り、データストアアレイ200は20アータ信号DATA AとDATA Bとを同時にする。 カリデータキャッシュ150は正アウセスさ れるデータキャッシュとして作りは一重にアクセスさ れるデータキャッシュとして作りは一重にアクセスさ

【0098】データストアレイ200は4つの別個の データストアアレイ、つまりカラムのストアアレイ43 0、カラム1ストアアレイ431、カラム2ストアアレ 4432、およびカラム3ストアアレイ433ととは ロルテブレクサ (例以X) 監路40を含む、アルゲア レクサ440はデータ線形タグ回路202から制御信号 を受取り、これらの制御信号は各線形タグアレイ中にス トアされる線形ダイ健と一要がるかどうかを示す。 サアされる線形ダイ健と一要がるかどうかを示す。 サアナリンサ440はストアアレイ430-433からデータを変取り、かつこのデータをロードストア機能ユー ット134に存える。

【0099】練形タグ回路202はカラム0-3に対応 する維那タグアレイ450-453を含む。各機部タグ アレイは対応する比較回路454-457に結合され る。したがって、データキャッシュ150の各カラムは ストアアレイと、練形タグアレイと、比較回路とを含 む、ストアアレイ430-433、アドレスタグアレイ 450-453、および比較回路454-457はすべ てロードストアセクション134から練形アドレスAD DR A、ADDR Bを要取る

【0100】IADバス102はストアアドレスマルチ プレクサ461を介して各ストアアレイ430-433 に結合されていずれにもストアアドレスを与える。IA Dバス102はまた、各ストアアレイ430-433に 結合されるストアレジスタ460に結合される。IAD バス102によって与えられるストアアドレスは、特定 のカラムを指して特定のバンクを選択するために与えら れ、特定のカラムはカラム選択ビットによって選択さ れ、これらのカラム選択ビットはストアを行なっている ときにストアバッファ180によって与えられるか ま たは再ロードを行なっているときに物理タグ回路162 によって与えられる。ストアのためには、ただ1のバン クがアクセスされる。バンク選択ビット、つまりIAD バス102によって与えられるアドレスのビット2およ びビット3はバンクにアクセスするために用いられる。 再ロードのためには4つのバンクすべてが並列にアクセ スされる。

【0101】 IADバス102はデータをデータキャッ

シュ150のストアアレイ430-433に響込むため に、ストア動作および再ロード動作の両方の動作の間に 使用される。ストア動作を実行するときには、データは 32ビット倍長語の形でストアレジスタ460を介して ストアアレイ430-443に書込まれる。ストアバッ アッの書込の次かには、ADDR Bに与えられる「A Dバスアドレスがデータキャッシュ150に入力され る。ADDR Bおよび「ADアドレスはアドレスア ケアレクサ461によってマルチアレクスされる。

【0102】再ロード動作を行なうときには、データは 128ビットラインでストアアレイ430-433に書 込まれる。ストアレジスタ460は2回の64ビットア クセスでIADバス102から128ビットのデータを 集め、この128ビットが集められた後、ストアレジス タ460はこのデータをストアアレイ430-433に 書込む。再ロードのためには、64ビットが各位相で書 込まれるため、ストアレジスタ460はデータを受取る ために I A D バス 1 0 2 の アドレスラインをマルチプレ クスする。アドレスマルチプレクサ461は、ロウを指 し示すために I A D アドレスを A D D R B アドレス経 路上にマルチプレクスする。データキャッシュストアマ ルチプレクサ460は、ストア動作またはロード動作の どちらが行なわれているのかに基づいてデータキャッシ ュコントローラによって制御される。再ロード動作のた めには、ロードストアコントローラ134はデータキャ ッシュ150のポートAを介して再ロードアドレスを書 込み、このためデータキャッシュ150は再ロードアド レスのためにADDR Aを用いる。

【0103】図11ま比図12を参照すると、データ キャッシェ150の名ネトアアレイは、デュアルボート 動作に関連したオーバーヘッドを必要とせずに、1クロ ックサイクル中に複複のアクセスが可能となるようにバ ング精成とされる。より特定的には、各ストアアレイは 4つのパンク470-473を含み、これらのパンクの 各々は32ビット倍長額データをストアし、各パンクは それぞれのパンクアドレスマルチアレクサ474-47 7を含む、4つのパンクの組合かせによりデータキャッ シェ150の1ラインへのアクセスが与えられる。

[0104]をバシク470~473はそれぞれADD R AまたはADDR Bのいずかかによってアドレス 指定され、これらのアドレスは各バンクアドレスマルチ アレクサ474~477によって与えられる。バンクア ドレスマルチアレクサ474~477はADDR Aお よびADDR Bのバンク選択ビットによって制御され る。各バンクは関マにアドレス指定されるため、1つ以 上のバンクを開呼にアセス上(8る。

【0105】たとえば、図11に示されるように、AD DR Aがバンク0の1ラインをアドレス指定し、AD DR Bがバンク3の同じラインをアドレス指定する場 合、マルチプレクサ474はADDR Aをバンク0に 与え、かつマルチアレクサ 47 6 は ADDR Bをバン 22 に与える。 ADDR Aによってアドレス指定されたデータ語は、DATA Aデータ経験を介してDATA Aとしてロード/ストア機能ユニット 13 4 に与えられ、ADDR Bによってアドレス構定されたデータ Bは、DATA Bデータ経験を介してDATA Bとしてロード/ストア機能ユニット 13 4 に与えられる。 [01061] 図1 2 からわかるように、ADDR A およびADDR Bの両方がパンク0の同じラインをアドレス接近する場合。 このラインとバンクとだけがアクセスされ、この位置のデータはDATA Aデータ経験をそれぞれ介してDATA ABよびDATA Bデータ経験をそれぞれ介してDATA ABよびDATA Bでありまります。

【0107】2つのアクセスがバンクは同じだが異なる ラインへのアクセスである場合、データイトッシュコン トローラ190によって1サイノルの間ボートBアクセ スが停止される。局所性が強い命令キャッシュアクセス と比べるとデータキャッシュアクセスは一般にランダム であるため、同じバンクの異なるラインへのボートA、ボートBのアクセスが発生する頻度は初的にない。

【0108】データキャッシュ150へのストアアクセ スはIADバス102を介して行なかれる。ストアの 間、マルチアレクサ474-478は、バンク470-473のうちのどれに32ピットストア倍長器が転込ま れるかを削削するためにストアアクエスを使用する アレードの間、バンク470-473は再ロードデータが ストアレジスタ460中に眺められた後に1つの128 ビットラインに奉起まれる。

【0109】図2、および図の一図11を参照して、データキャンシュ150の一部が立動作について議論する。ロードノストア機能ユニット134がキャンシュ150に入下されていないデータ値をリクエストすると、キャンシェ25が発生する。キャンシェ32を検出すると、リクエストされた値がデータキャッシュ150のエントリに需込まれる。より特定的には、ロードストアセクション134はその値についての論理アドレスはメモリ告で型ユニット164に与えられている。

【0110】ロードストア機能ユーット134が「LB ヒットがあると半額庁すると、ロードストア機能ユーット 134はデータを検索してデータがキャッシュ可能かど うかを判断する。もしデータがキャッシュ可能であり、 かつTLBヒットがあれば、があるを機理アドレスの物 理タグが物理タグ回路162の対応するエントリの中へ 審込まれる。データがストアされたアレイカラムに対応 セラデータ維那タケアレイ450 - 453にはTLBア レイからの線形タグが書込まれる。

[0111] TLBヒットがなければ、TLBアレイは TLBヒットが生しるように、メモリ管理ユニット16 イによって要求された値のアドレスを含むように更新される。その後、物理クグが物理クグ回路162に番込まれた。総形タグが適切な線形クグアレイ450-453に 部込まれる。

[0112] その後、ロード/ストア構能にエット13 4が外部メモリに対してプリフェッチ要求を行ない、外 部メモリ中の線形アドレスに対応する物理アドレスにス トアされた値が外部メモリから取出される。この値はス トアアレイ200のバンク、ラインおよびカラムにスト アされており、ストアアレイ200は線形タグアレイに ストアされる値の線形タグのライン位置およびカラム位 置に対応する。線形タグアレイ310中の対応する線形 タグ有効ビットおよび有効物理変化・分に、線形タグ に対応するエントリが有効であり、線形タグが有効であ り、かつエントリが有効であり、線形タグが有効であ り、かつエントリが有効であり、線形タグが有効であ り、かつエントリが有効であり、まだタグが有効であ り、かつエントリが有効であり、まだタグが有効であ り、かつエントリが有効であり、まだタグが有効であ

【0114】図1-図10および図13を参照して、ロ

ード/ストア機能ユニット134がポートAを介してロ ード動作を実行しており、かつロードされるべきデータ 値がデータキャッシュ150中で利用可能な場合、デー タキャッシュヒットが発生する。より特定的には、周期 1のΦ1の間に加算器240またはRS0加算器216 によって計算されてキャッシュインデックスが発生す る。このキャッシュインデックスは線形アドレスの最下 位11ビットであり、線形アドレス計算の一部として計 算される。このキャッシュインデックス線形アドレスは データキャッシュストアアレイ200の適切なラインお よびバンクにアクセスするために用いられる。適切なラ インおよびバンクにアクセスするときには、加算器24 2によって計算された線形アドレスが線形タグを比較す ることによってストアアレイ200の適切なカラムにア クセスするために使用される。その後、データ値はDA TAAデータ経路を介して保留ステーション回路124 のドライバ回路220に戻される。このデータ値はドライ・「回路220によってフォーマット化されて結果バス 0に与えられる。周期1のの220間、リミットチェック 回路252は当該技術分野で周知のように総形アドレス に対してセグメントリミットチェックおよび保護チェッ クを存立う。周期2の910間、データ値および対応す る行先クグがボートAのために結果バス0上に駆動され

【0115】ボートAを介してロード動作が実行されている間、対応するロード動作がエトBを介して実行され得る。この対応するロード動作はデータキャッシュアクセスのアドレス発生を行なうために、対応する加算器とともに保留ステーションRS1を用いる。保留ステーションRS1中のエントリについてのデータ値および対応する行法やグレ結果がス1上に駆動される。

【0116】図1一図10および図14を参照して、ロード/ストア機能上エット134によってボート&をしてストア動物が実行されており、かつストアされるなきデータ値がデータキャッシュ150中に既にストアされている場合、データキャッシュとットが発生する。ストアは満出修正書込動作として実行されるため、ストア動作の第1の部分はロード動作と同様である。データ値がロードされた後、ロードされた値はロードされたデータ値を修正するためにストアバッファ回路180に書込まれる。

【0117】より特定的には、周期1のΦ1の間、加算 器240またはRS0加算器216による計算によって キャッシュインデックスが発生される。このキャッシュ インデックスは線形アドレスの最下位11ビットであ り、線形アドレス計算の一部として計算される。このキ ャッシュインデックス線形アドレスはデータキャッシュ ストアアレイ200の適切なラインおよびバンクにアク セスするために用いられる。適切なラインおよびバンク がアクセスされるときには、線形タグを比較することに よってストアアレイ200の適切なカラムにアクセスす るために、加算器242によって計算された線形アドレ スが用いられる。その後、データ値はDATA Aデー タ経路を介して保留ステーション回路124のドライバ 回路220に戻される。このデータ値はドライバ回路2 20によってフォーマット化されて結果バス0に与えら れる。周期1のΦ2の間、リミットチェック回路252 は当該技術分野で周知のように線形アドレスに対してセ グメントリミットチェックおよび保護チェックを行な う。周期2のΦ1の間、データ値および対応する行先タ グがポートAのために結果バス0上に駆動され、かつま たストアバッファ回路180の次に利用可能なエントリ にストアされる。この値はストア動作がリオーダバッフ ァ114からリタイアするまでストアバッファ回路18 0に保持され、ストア動作のリタイアはどの命令も係属 していない場合に発生する。その後、リオーダバッファ

114はロードストアリタイグ信号を用いてロード/ストアコントローラ180に対してストア命令をリタイアできる。つまりストアを実行できるということを示す。ストアはデータ値の状態を実際に修正するため、ストアは疾根に基かっては実行されず、リオーグパッフトリーインストアの実行を許可する前にストアが実際に次の命であるということがはっきりするまで特徴しなくてはいけない。

【0118】リオーグパッファ114が命令を実行して もよいということを示した後、命令の解除に続いて周期 の010間、デーク値および対応する総形アドレスが1 ADパス102に対して駆動される。この周期のの2の 間、デーク値はデークキャッシェストアアレイ200 適切なラインおよびパンクに事込まれる。さらに、もし 物理タシに同様に、データ値はがドレスに対応でき で3年で、データ値はデードレスに対応でき で3年で、データ値は強力ドレスに対応されてき 10パス102から総形でドレスを表が表しました。 エート1102から総形でドレスを放めてシャモリ管理 エート1102から総形でドレスを強めできなオービ電

で、 (0 119) 図1 −図10および図15を参照して、ロード/ストア機能エニット134が疲認と基づくロード 動作を実行しており、かつロードされるべきデータ値が ボータキャッシュ150中で入手できない場合、仮想に 基づくデータキャッシュミスが発生する。ロード動作の 第10周期はキャッシュヒットが発生した場合と同じで ある。

のの。
(0120]キャッシュ150がアクセスされ、キャッシュミが生じた場合、開閉2の間に水モリ管理ニニット164中でTLBがアクセスされ、かつデーク値の物理アドノスを決定するためにや理タク回路162中で発展をよっなりないたいきを確認するためにメモリ管理ユニット164中でチェックされる。次の周期か同、ボートBアクセスがキャッシュアレイ200の同じがシアルのアクセスではない場合、ボートBでクセスがキャッシュアレイ200で同じがシアルクテセスがよか場合、ボートのセスが中ッシュアレイ200で同じがシアルクのションアレイ200でリールのションのに、タグバスからのラインのタブ有効にナルのションアレイ200で野茶さん。次の周期の間、データ値、行先タグおよびステータスが次に利用可能と結果バス上に駆動され、かつキャッシュヒットを規定した通常の制作が始まる。

【0121】図1一図10および図16を参郷Uて、キャッシュ再ロードの間、再ロード動作の第1の周期はキャッシュとサトが生じた場合と同じである。しかしながら、キャッシュフトの1つラ19のがキャッシュミストは生じた半期に九合核は、ロードストア構能ユニット134は、外部メモリを再ロードキャッシュ150にアクセスする前にストアパファ回路186次をの変きが高いたり、アクロ路16次後、物理タグ回路16分類とた後、物理タグ回路16

2は、データの128ビットすべてがストアレジスタ4 60に書込まれたことをキャッシュ150に対して示す データ使用可能器号(12218)8を入る。データが 使用可能となりデータキャッシュアレイ200に書込ま れると、保留ステーション回路124のドライバ回路2 20はデータ、完先タグおよびステータス情報を結果バ ス0上に駆動する。

【0122】関17を参照して、誤極列したアクセスについては、続く期期の間に2つのアクセスが存在する。
2つのアクセスの各なはキャャシュヒットアクセスと同じてある。各アクセスから売ったデータはドライバアリンである。在アクセスから近し、データが集積された後、ドライバ回路220は上に述べたようにデータをフォーマット化する。その後、保留ステーション回路124のドライバ回路220はデータ、行先カグおよびステークス情報を結果バスの上に駆動する。能差列したアクセスは保留ステーションのと用いる場合にのみ実行される。たがって、ドライバ回路20のRSの加減器およびボート系部分だけが、誤整列したアクセスの実行に必要な回路を必要とした。

#### 【0123】他の実施例

他の実施例は前掲の特許請求の範囲内である。

[0124] たとえば、ロード/ストア機能ユニット134はロード機能ユニットとストア機能ユニットとの労働の機能ユニットとの労計されてもよい。この実施 好では、これらの機能ユニットの動作は上述とは気間してあるが、各機能ユニットはそれの保留ステーションを含み得る。 高い機えれば、ロードセクションはロードに関して動能したように機能するロード保留ステーションを含み、かつストアセクションはストアに関して勤能したように機能するエトア保留ステーションを含み、

【図1】本発明に従うスーパースカラマイクロプロセッ サのブロック図である。

【図2】本発明に従うロード/ストア機能ユニットおよ びデータキャッシュのブロック図である。

【図3】図2のロード/ストア機能ユニットの保留ステーション回路のブロック図である。

【図4】図3の保留ステーション回路のエントリの内容 のブロック図である。

【図5】図3の保留ステーション回路の加算器回路のブロック図である。

【図6】図2のロード/ストア機能ユニットのストアバッファ回路のブロック図である。

【図7】図6のストアバッファ回路のエントリの内容の ブロック図である。

【図8】図6のストアバッファ回路のストアバッファエントリのブロック図である。

【図9】図2のデータキャッシュのエントリのブロック 図である。 【図10】図2のデータキャッシュのストアアレイおよび線形タグアレイのブロック図である。

【図11】図10のストアアレイのバンク構造のブロック図である。

【図12】図10のストアアレイのバンク構造のブロック図である。

【図13】本発明に従うロード動作のタイミング図である。

【図14】本発明に従うストア動作のタイミング図である。

【図15】本発明に従う理論上のアクセス動作の間のデータキャッシュミスのタイミング図である。

【図16】本発明に従うデータキャッシュ再ロード動作 のタイミング図である。

【図17】本発明に従う誤整列アクセス動作のタイミン グ図である。

#### 【符号の説明】

- 100 マイクロプロセッサ
- 124 保留ステーション回路
- 134 ロード/ストア機能ユニット 150 データキャッシュ
- 180 ストアバッファ回路
- 182 ロード/ストアコントローラ
- 190 キャッシュコントローラ

#### [図1]



【図4】

| ٧ | ^ #K9 | * | • 4 | ペラント | T | 变位 | 7,4 | g 0 | 'a - | - | MILE |
|---|-------|---|-----|------|---|----|-----|-----|------|---|------|
|   |       |   |     |      |   |    |     |     |      |   |      |
|   |       |   |     |      |   |    |     |     |      |   |      |

### 【図2】



【図7】





[図8]



【図11】



【図13】



# 線形形以計算

データ データ 173-マック セイドント リミットキェック。

1年8隻 1277

【図14】



【図15】







#### フロントページの続き

(72)発明者 ウィリアム・エム・ジョンソン アメリカ合衆国、78746 テキサス州、オースティン、クリスティー・ドライブ 102 (72)発明者 デイビッド・ビィ・ウィット アメリカ合衆国、78759 テキサス州、オ ースティン、パスファインダー・ドライ ブ、6318 (72)発明者 ミュラリ・チナコング アメリカ合衆国、78746 テキサス州、オ ースティン、スパイグラス・ドライブ 1781、ナンバー・301